SAN FRANCISCO, 22 Jun — Selepas realiti maya, kumpulan Meta kini memasuki arena audio. Gergasi teknologi Amerika itu telah melancarkan Voicebox, sebuah studio dalam talian yang berguna untuk mengubah teks menjadi audio, dalam enam bahasa berbeza. Buat masa ini, Meta telah memutuskan untuk tidak berkongsi alat AI baharunya dengan orang awam.
Selepas dunia realiti maya, Mark Zuckerberg kini beralih ke audio dengan Voicebox. Dalam catatan blog, gergasi rangkaian sosial itu menerangkan alat baharu ini sebagai “model AI generatif yang boleh membantu dengan penyuntingan audio, pensampelan dan penggayaan.”
Suara yang lebih semula jadi
Pertama sekali, studio Meta akan membolehkan penjanaan teks ke pertuturan, iaitu, ia akan dapat mengubah teks bertulis kepada audio pertuturan menggunakan suara sintetik. Antara pilihan lain, pengguna akan mendapat manfaat daripada pemindahan gaya silang bahasa. “Memandangkan sampel pertuturan dan petikan teks dalam bahasa Inggeris, Perancis, Jerman, Sepanyol, Poland atau Portugis, Voicebox boleh menghasilkan bacaan teks dalam bahasa itu,” kata Meta.
Lebih mengagumkan ialah keupayaan Voicebox untuk menghasilkan semula gaya audio daripada ekstrak hanya dua saat. Ini kemudiannya boleh digunakan untuk menjana kandungan audio lain. Gaya yang digunakan adalah lebih mewakili cara orang bercakap dalam kehidupan seharian, lebih semula jadi dan oleh itu lebih sedap didengari.
Selain menukar teks kepada audio dan menghasilkan semula gaya audio, studio menawarkan pilihan untuk mengedit ekstrak. Malah, pengguna boleh memadamkan bunyi atau mana-mana bahagian lain trek audio untuk menjadikan kandungan sempurna tanpa perlu membuat rakaman baharu.
“Kami melatih Voicebox dengan lebih daripada 50,000 jam pertuturan dan transkrip rakaman daripada buku audio domain awam dalam bahasa Inggeris, Perancis, Sepanyol, Jerman, Poland dan Portugis. Kotak suara dilatih untuk meramalkan segmen pertuturan apabila diberikan pertuturan sekeliling dan transkrip segmen tersebut,” jelas Meta.
Walau bagaimanapun, kumpulan Amerika bukanlah yang pertama mengambil minat dalam suara sintetik. TikTok mencetuskan heboh dengan alat teks-ke-ucapan sendiri apabila ia dilancarkan pada tahun 2020. Gergasi China itu malah membolehkan untuk menggunakan suara watak filem Disney seperti Rocket Raccoon daripada Penjaga GalaxyC-3PO daripada Perang Bintang dan Jahit daripada Lilo dan Jahit untuk membaca teks dalam format audio. Lebih menarik dan lebih inklusif, penggunaan suara sintetik terus menarik minat pengguna dan pemain utama dalam rangkaian sosial. Bagi Meta, “teknologi jenis ini boleh digunakan pada masa hadapan untuk membantu pencipta mengedit runut audio dengan mudah, membenarkan orang cacat penglihatan mendengar mesej bertulis daripada rakan dalam suara mereka dan membolehkan orang ramai bercakap apa-apa bahasa asing dalam suara mereka sendiri.” Satu cara untuk mengeratkan hubungan dan menarik pengguna baharu. — Studio ETX