โปรดอัพเดตเบราว์เซอร์

เบราว์เซอร์ที่คุณใช้เป็นเวอร์ชันเก่าซึ่งไม่สามารถใช้บริการของเราได้ เราขอแนะนำให้อัพเดตเบราว์เซอร์เพื่อการใช้งานที่ดีที่สุด

ไอที

เปิดตัว AI ใหม่จาก Nvidia สังเคราะห์เสียงที่ไม่เคยมีมาก่อนได้

Techhub

อัพเดต 05 ธ.ค. 2567 เวลา 13.05 น. • เผยแพร่ 05 ธ.ค. 2567 เวลา 13.05 น.

[เสียงสังเคราะห์] อาจเป็นเครื่องมือชั้นเยี่ยมสำหรับนักแต่งเพลง หลัง Nvidia ได้เปิดตัว “Fugatto” โมเดล AI ตัวใหม่ เผยสามารถสังเคราะห์เสียงพูด เสียงร้อง เสียงเครื่องดนตรี หรือทำนองเพลงในแบบต่าง ๆ ได้อย่างเป็นธรรมชาติมากที่สุด

จากเดิมที่ใช้ข้อความ (Prompt) เพียงอย่างเดียวในการสร้างเสียงต่าง ๆ ตามที่เคยใช้ในหลาย ๆ บริการ AI ทางด้าน Nvidia ได้ก้าวไปอีกขั้น ด้วยการเปิดตัว Fugatto สามารถใช้ Prompt สร้างเสียงสังเคราะห์ได้เหมือนกัน แต่เบื้องหลังต่างกัน และได้ผลลัพธ์ที่ดีกว่าด้วย

นักวิจัยของ Nvidia เผยตัวโมเดลใช้เทคนิคการฝึกแบบสังเคราะห์ใหม่ โดยมีการผสมผสานข้อมูลต่าง ๆ ในระดับอนุมาน จนสามารถสังเคราะห์เสียงที่ไม่เคยมีมาก่อนได้ อย่างไรก็ตาม ตัวโมเดลมีความยากลำบากในการสร้างชุดข้อมูลเพื่อ ‘ฝึก’ หรือเทรนตัวโมเดลดังกล่าวมาก

โดยขั้นแรก ทางนักวิจัยได้ใช้ LLM เพื่อสร้างสคริปต์ Python ที่สามารถสร้างคำสั่งตามเทมเพลต และรูปแบบต่าง ๆ ที่อธิบายบุคลิกของเสียงต่าง ๆ ได้เลย จากนั้นก็สร้างงชุดคำสั่งทั้งแบบสัมบูรณ์และแบบสัมพันธ์กัน เช่น “synthesize a happy voice” สั่งให้สร้างเสียงพูดสังเคราะห์ที่พูดด้วยอารมณ์ที่มีความสุข และ “increase the happiness of this voice” สั่งให้เพิ่มอารมณ์ให้มากยิ่งขึ้นอีกก็ยังได้

เรียกได้ว่า Fugatto จะเน้นที่ความเข้าใจในข้อมูลเสียงที่มี และเข้าใจคำอธิบายภาษาที่วัดลักษณะเสียงเฉพาะต่าง ๆ ได้เลย เช่น อารมณ์ และคุณภาพของการพูดได้โดยอัตโนมัติ ต่างจากการดึงชุดข้อมูลเสียงแบบเดิม อีกทั้งตัวโมเดลจะเริ่มเรียนรู้เลยว่า ลักษณะเสียงแบบใดที่มักจะปรากฏในคำพูดที่ “มีความสุข” มากกว่า

ดูข้อมูลเบื้องหลังเพิ่มเติมได้ที่ FUGATTO.pdf

ด้วยเบื้องหลังดังกล่าว ก็ส่งผลให้ Fugatto สามารถสร้างเสียงสังเคราะห์ได้เป็นธรรมชาติ และแม่นยำว่าโมเดล AI ทั่ว ๆ ไป ถึงขั้นที่แยกเสียงแซกโซโฟนกับขลุ่ยออกจากกันได้ หรือนำไฟล์เสียงเปียโนสั้น ๆ มาแปลงให้เป็นเสียงผู้หญิงร้องเพลงแนวโอเปร่าได้เหมือนจริงมาก ๆ ก็ยังได้

ท้ายนี้ตัว Fugatto ยังไม่เปิดให้ทดสอบสาธารณะ แต่ก็มีเว็บไซต์แสดงตัวอย่างการใช้ไว้มากมายแทน ใครอยากรู้ว่าโมเดลดังกล่าวมันสร้างเสียงได้เป็นธรรมชาติมากแค่ไหน ลองดูเพิ่มเติมได้ที่ https://fugatto.github.io/

ที่มา : Arstechnica


⭐️Techhub รวม How To , Tips เทคนิค อัปเดตทุกวัน

กดดูแบบเต็มๆ ที่ www.techhub.in.th

ดูข่าวต้นฉบับ
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...