Teknologi Pembuat Suara AI Terbaru dari OpenAI
OpenAI baru-baru ini mengumumkan akses terbatas ke platform penghasil teks-ke-suara yang mereka kembangkan bernama Voice Engine. Teknologi Pembuat Suara AI ini mampu menciptakan suara sintetis berdasarkan klip suara 15 detik seseorang. Suara yang dihasilkan oleh AI ini dapat membacakan teks secara langsung dalam bahasa yang sama dengan pembicara atau dalam beberapa bahasa lainnya. OpenAI mengatakan dalam pos blog mereka, “Pengimplementasian skala kecil ini membantu memperjelas pendekatan kami, perlindungan, dan pemikiran tentang bagaimana Voice Engine bisa digunakan untuk kebaikan di berbagai industri.”
DAFTAR ISI
Perusahaan dengan Akses
Beberapa perusahaan yang telah mengakses teknologi ini termasuk perusahaan teknologi pendidikan Age of Learning, platform visual storytelling HeyGen, pembuat perangkat lunak kesehatan frontline Dimagi, pencipta aplikasi komunikasi AI Livox, dan sistem kesehatan Lifespan.
Contoh Penggunaan
Dalam sampel-sampel yang diposting oleh OpenAI, kita dapat mendengar apa yang telah dilakukan Age of Learning dengan teknologi ini untuk menghasilkan konten suara pra-scripted, serta membacakan “tanggapan personal yang real-time” kepada siswa yang ditulis oleh GPT-4.
Referensi Audio dalam Bahasa Inggris
Berikut adalah tiga klip audio yang dihasilkan oleh AI berdasarkan sampel tersebut.
OpenAI mengatakan mereka mulai mengembangkan Voice Engine pada akhir 2022 dan teknologi ini telah digunakan untuk menghidupkan suara-suara pra-set untuk API teks-ke-suara dan fitur Read Aloud ChatGPT. Dalam sebuah wawancara dengan TechCrunch, Jeff Harris, anggota tim produk OpenAI untuk Voice Engine, mengatakan bahwa model ini dilatih dengan “campuran data yang dilisensikan dan tersedia secara publik.” OpenAI mengatakan kepada publikasi tersebut bahwa model ini hanya akan tersedia untuk sekitar 10 pengembang.
Perkembangan AI Generasi Suara
Generasi teks-ke-audio AI adalah area AI generatif yang terus berkembang. Sementara sebagian besar fokus pada suara instrumental atau alam, sedikit yang fokus pada generasi suara, sebagian karena pertanyaan yang diajukan oleh OpenAI. Beberapa nama dalam ruang tersebut termasuk perusahaan seperti Podcastle dan ElevenLabs, yang menyediakan teknologi kloning suara AI dan alat-alat yang telah dijelajahi oleh Vergecast tahun lalu. Sementara itu, pemerintah AS sedang berusaha untuk mengendalikan penggunaan tidak etis teknologi suara AI. Bulan lalu, Federal Communications Commission melarang panggilan spam menggunakan suara AI setelah orang-orang menerima panggilan spam dari suara AI yang dikloning dari Presiden Joe Biden.
Menurut OpenAI, mitra-mitra mereka setuju untuk mematuhi kebijakan penggunaannya yang menyatakan bahwa mereka tidak akan menggunakan Voice Generation untuk menyamar sebagai orang atau organisasi tanpa persetujuan mereka. Itu juga mensyaratkan mitra-mitra untuk mendapatkan “persetujuan eksplisit dan terinformasi” dari pembicara asli, tidak membangun cara bagi pengguna individu untuk membuat suara mereka sendiri, dan untuk mengungkapkan kepada pendengar bahwa suara-suara tersebut dihasilkan oleh AI. OpenAI juga menambahkan watermark ke klip audio untuk melacak asalnya dan secara aktif memantau bagaimana audio tersebut digunakan.
Langkah-Langkah Pengamanan
OpenAI menyarankan beberapa langkah yang menurutnya dapat membatasi risiko seputar alat-alat seperti ini, termasuk menghentikan autentikasi berbasis suara untuk mengakses rekening bank, kebijakan untuk melindungi penggunaan suara orang dalam AI, pendidikan lebih lanjut tentang deepfakes AI, dan pengembangan sistem pelacakan konten AI.
FAQ Terkait Teknologi Pembuat Suara AI Terbaru dari OpenAI
- Apa itu Voice Engine dari OpenAI?
Voice Engine adalah platform generasi suara AI terbaru dari OpenAI yang memungkinkan penciptaan suara sintetis berdasarkan klip suara 15 detik seseorang.
- Siapa saja yang telah mengakses teknologi Voice Engine?
Beberapa perusahaan yang telah mengakses teknologi ini termasuk Age of Learning, HeyGen, Dimagi, Livox, dan Lifespan.
- Bagaimana cara OpenAI memastikan penggunaan yang etis dari Voice Engine?
OpenAI memastikan penggunaan yang etis dengan meminta persetujuan eksplisit dari pembicara asli, melarang penggunaan untuk menyamar, dan menambahkan watermark untuk melacak asal klip audio.
- Apa yang membedakan Voice Engine dari teknologi generasi suara AI lainnya?
Voice Engine membedakan dirinya dengan kemampuannya untuk menghasilkan suara sintetis berdasarkan klip suara pendek dan menyediakan kontrol yang ketat terhadap penggunaannya.
- Apa langkah-langkah yang disarankan oleh OpenAI untuk membatasi risiko seputar teknologi generasi suara AI?
OpenAI menyarankan beberapa langkah, termasuk menghentikan autentikasi berbasis suara untuk mengakses rekening bank dan mengembangkan sistem pelacakan konten AI untuk mengurangi risiko penyalahgunaan.