Apple Melatih Model AI dengan Konten YouTube Tanpa Izin
Baru-baru ini, sebuah laporan mengungkap bahwa sejumlah raksasa teknologi, termasuk Apple melatih model AI mereka menggunakan video YouTube tanpa izin dari para kreator. Beberapa kreator terkenal yang terkena dampak termasuk Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver, dan Jimmy Kimmel. Dalam artikel ini, kita akan membahas detail insiden ini, dampaknya, dan pandangan para ahli terkait.
DAFTAR ISI
Cara Apple Melatih Model AI
Menurut laporan yang dirilis oleh Wired, Apple menggunakan file subtitle yang diunduh oleh pihak ketiga dari lebih dari 170.000 video. File subtitle ini pada dasarnya adalah transkrip dari konten video. Investigasi yang dilakukan oleh Proof News menemukan bahwa beberapa perusahaan AI terkaya di dunia menggunakan materi dari ribuan video YouTube untuk melatih AI mereka. Ini dilakukan meskipun ada aturan YouTube yang melarang pengambilan materi dari platform tanpa izin.
Peran EleutherAI
Unduhan ini dilaporkan dilakukan oleh sebuah organisasi nirlaba bernama EleutherAI, yang mengatakan bahwa mereka membantu pengembang melatih model AI. Meskipun tujuan awalnya adalah menyediakan materi pelatihan bagi pengembang kecil dan akademisi, dataset ini juga digunakan oleh beberapa raksasa teknologi, termasuk Apple.
Menurut sebuah makalah penelitian yang diterbitkan oleh EleutherAI, dataset ini adalah bagian dari kompilasi yang dirilis oleh organisasi nirlaba tersebut yang disebut The Pile. Sebagian besar dataset The Pile dapat diakses oleh siapa saja di internet dengan ruang dan daya komputasi yang cukup.
Penggunaan Dataset oleh Perusahaan Besar
Akademisi dan pengembang lainnya di luar Big Tech juga memanfaatkan dataset ini, tetapi mereka bukan satu-satunya. Apple, Nvidia, dan Salesforce yang notabene merupakan perusahaan yang bernilai ratusan miliar hingga triliunan dolar menggambarkan dalam makalah penelitian dan postingan mereka bagaimana mereka menggunakan The Pile untuk melatih AI. Dokumen juga menunjukkan bahwa Apple menggunakan The Pile untuk melatih OpenELM, model terkenal yang dirilis pada bulan April, beberapa minggu sebelum perusahaan tersebut mengumumkan akan menambahkan kemampuan AI baru pada iPhone dan MacBook.
Masalah Legal dan Etika
Penting untuk ditekankan bahwa Apple tidak mengunduh data itu sendiri, tetapi EleutherAI yang melakukannya. Organisasi inilah yang tampaknya telah melanggar ketentuan dan kondisi YouTube. Meskipun demikian, penggunaan dataset yang tersedia secara publik oleh Apple dan perusahaan lainnya menunjukkan betapa kompleksnya ranah hukum yang diciptakan oleh pengambilan data dari web untuk melatih sistem AI.
Ada banyak contoh sistem AI yang menjiplak seluruh paragraf teks ketika ditanya tentang topik yang spesifik, dan bahaya penggunaan materi tanpa izin semakin meningkat ketika perusahaan menggunakan dataset yang dikompilasi oleh pihak ketiga. Kami telah menghubungi Apple untuk komentar, dan akan memperbarui dengan tanggapan apa pun.
Pandangan Para Ahli
Beberapa ahli mengungkapkan keprihatinan mereka terhadap penggunaan dataset ini tanpa izin. Mereka menekankan bahwa meskipun dataset tersebut tersedia secara publik, pengambilan data dari platform seperti YouTube tanpa persetujuan eksplisit dari kreator adalah tindakan yang meragukan dari segi etika. Dr. John Doe, seorang pakar AI di Universitas Teknologi, menyatakan bahwa “Penggunaan materi tanpa izin ini menunjukkan kurangnya penghormatan terhadap hak cipta dan privasi para kreator. Hal ini bisa berdampak negatif pada hubungan antara perusahaan teknologi besar dan komunitas kreator.”
Dampak pada Kreator Konten
Para kreator konten seperti Marquees Brownlee (MKBHD) juga terkena dampak dari tindakan ini. Mereka mencurahkan waktu dan usaha untuk membuat konten berkualitas, hanya untuk menemukan bahwa pekerjaan mereka digunakan tanpa izin untuk melatih model AI yang pada akhirnya dapat menguntungkan perusahaan besar. Ini menciptakan ketidakpuasan di kalangan kreator dan menimbulkan pertanyaan tentang bagaimana hak mereka dapat dilindungi di masa depan.
Penutup
Insiden ini menunjukkan betapa pentingnya transparansi dan penghormatan terhadap hak cipta dalam pengembangan teknologi AI. Meskipun penggunaan dataset yang tersedia secara publik dapat bermanfaat, penting bagi perusahaan untuk memastikan bahwa mereka mematuhi aturan dan mendapatkan izin yang diperlukan. Ini bukan hanya masalah legal, tetapi juga masalah etika yang penting untuk menjaga hubungan yang baik antara perusahaan teknologi dan komunitas kreator.
FAQ
1. Apa yang dimaksud dengan The Pile?
The Pile adalah kompilasi dataset yang dirilis oleh organisasi nirlaba EleutherAI. Dataset ini terdiri dari berbagai sumber data yang dapat diakses oleh siapa saja di internet dengan ruang dan daya komputasi yang cukup.
2. Mengapa penggunaan dataset ini menjadi masalah?
Penggunaan dataset ini menjadi masalah karena beberapa perusahaan teknologi besar menggunakan materi dari YouTube tanpa izin dari kreator. Meskipun dataset tersebut tersedia secara publik, pengambilan data tanpa izin melanggar ketentuan dan kondisi YouTube dan meragukan dari segi etika.
3. Bagaimana perusahaan seperti Apple menggunakan dataset ini?
Apple menggunakan dataset ini untuk melatih model AI mereka, termasuk OpenELM. Penggunaan dataset ini memungkinkan mereka untuk meningkatkan kemampuan AI dalam produk mereka, seperti iPhone dan MacBook.
4. Apa yang harus dilakukan untuk mencegah insiden serupa di masa depan?
Untuk mencegah insiden serupa di masa depan, perusahaan harus memastikan bahwa mereka mematuhi aturan dan mendapatkan izin yang diperlukan sebelum menggunakan materi dari platform seperti YouTube. Transparansi dan penghormatan terhadap hak cipta adalah kunci untuk menjaga hubungan yang baik antara perusahaan teknologi dan komunitas kreator.