ตั้งแต่ ChatGPT เกิดขึ้น มีความฉลาดจนโปรแกรมเมอร์หลายคนกังวลว่ามันจะมาแย่งงานเขา
ตอนนี้ มีข่าวให้กังวลเพิ่มขึ้นอีก… เมื่อทีมนักวิจัยของ Microsoft ได้เผย Ai ใหม่ที่สามารถเลียนแบบเสียงของมนุษย์ได้อย่างแม่นยำจากตัวอย่างเสียงที่มีความยาวเพียงสามวินาทีเท่านั้น.. อ่ะเด๊ะ.. แค่ 3 วิอ่ะ จะเก่งไปไหม
เครื่องมือ Ai สร้างเสียงของ Microsoft เรียกว่า Vall-E ได้รับการฝึกอบรมเกี่ยวกับการพูดมามากถึง 6 หมื่นชั่วโมง ซึ่งเนื้อหาส่วนใหญ่จะมาจากหนังสือเสียงสาธารณะของ LibriVox
Vall-E สร้างขึ้นบนเทคโนโลยีที่เรียกว่า EnCodec มันทำงานโดยการวิเคราะห์เสียงของบุคคล แบ่งข้อมูลออกเป็นส่วนประกอบ และใช้ประสบการณ์ที่ได้จากการฝึกอบรบเพื่อสังเคราะห์ว่า เสียงจะออกมาเป็นอย่างไรหากกำลังพูดในวลีที่แตกต่างกัน
แม้จะได้ยินตัวอย่างเพียงสามวินาที Vall-E ก็สามารถจำลองเสียงต่ำและน้ำเสียงที่สื่ออารมณ์ของผู้พูดได้แม่นยำมาก ๆ
จากการทดสอบ Vall-E มีประสิทธิภาพเหนือกว่าระบบ TTS แบบ zero-shot ที่ล้ำสมัย [AI ที่สร้างเสียงที่ตัวมันก็ไม่เคยได้ยิน] ในแง่ของความเป็นธรรมชาติของเสียงพูดและความคล้ายคลึงของผู้พูด
หากใครอยากลองฟัง เสียงที่ Vall-E เลียนแบบขึ้นใหม่ ลองดู Demo ได้ที่เว็บไซต์ของ GitHub ครับ > https://ift.tt/tngY0Qk
ที่มาข้อมูล
techspot
ไปไกลอีก AI ใหม่ของ Microsoft เลียนแบบเสียงคนได้ใน 3 วิ - Techhub
Read More
No comments:
Post a Comment