Kekurangan Data Manusia, AI Terancam ‘Kebuluran’ Naskah pada 2032

Perkembangan pesat teknologi kecerdasan buatan (AI) mungkin akan terhambat dalam beberapa tahun mendatang. Sebuah studi terbaru dari kelompok riset Epoch AI yang berbasis di San Jose, California, AS, memprediksi bahwa AI akan segera kehabisan naskah buatan manusia sebagai sumber pembelajaran.

Fenomena ini diperkirakan akan terjadi antara tahun 2026 dan 2032 karena keterbatasan jumlah naskah berkualitas yang dihasilkan manusia.

Dalam laporan yang dirilis pada Kamis (6/6/2024), Epoch AI mengungkapkan bahwa jumlah data teks yang tersedia untuk pelatihan model bahasa AI telah mengalami pertumbuhan signifikan, namun tidak sebanding dengan kecepatan pembelajaran mesin tersebut.

“AI seperti ChatGPT belajar dari triliunan kata yang diunggah di internet, dari karya tulis hingga komentar media sosial. Namun, sumber ini tidak akan bertahan selamanya,” ujar Tamau Besiroglu, salah satu peneliti dalam studi tersebut.

Besiroglu mengibaratkan situasi ini dengan demam emas di Amerika pada abad 18-19, di mana sumber daya alam habis digunakan dalam tempo yang sangat cepat.

“Naskah berkualitas buatan manusia kini menjadi semakin langka dan dianggap sebagai sumber daya alam yang terbatas,” tambahnya.

Studi ini juga mencatat bahwa perusahaan teknologi besar seperti Meta Platforms telah mengembangkan model AI terbaru mereka, Llama 3, dengan menggunakan sekitar 15 triliun token.

Namun, ini tidak menjamin ketersediaan data jangka panjang. Di masa depan, AI mungkin harus mengandalkan data pribadi atau data sintetis, yang kualitasnya dinilai lebih rendah dibandingkan dengan data manusia.

Penggunaan data pribadi sebagai sumber pembelajaran dapat menimbulkan masalah privasi dan etika, sedangkan data sintetis belum tentu dapat menghasilkan pembelajaran yang efektif. “Kami menghadapi ‘bottleneck’ serius jika batasan jumlah data ini tercapai,” kata Besiroglu. “Pengembangan akan menjadi tidak efisien.”

Sementara itu, Nicolas Papernot, Asisten Profesor Teknik Komputer di Universitas Toronto, menyatakan bahwa pengembangan AI mungkin tidak selalu memerlukan data dalam jumlah besar. “Kita tidak perlu melatih model yang semakin besar dengan data yang sama atau sintetis,” ujar Papernot. Ia menambahkan bahwa penggunaan data sintetis berulang kali bisa mengurangi kualitas dan efektivitas model AI.

Dalam konteks yang lebih luas, masalah penggunaan data ini telah memicu perdebatan hukum dan etika.

Sejumlah perusahaan media besar seperti The New York Times telah menggugat perusahaan-perusahaan pengembang AI atas penggunaan naskah mereka tanpa izin. Langkah ini menunjukkan kebutuhan mendesak akan aturan yang lebih jelas mengenai penggunaan dan kompensasi data untuk pembelajaran AI.

Selain itu, Selena Deckelmann dari Wikimedia Foundation menekankan pentingnya menciptakan insentif bagi kontributor untuk terus menghasilkan tulisan berkualitas tinggi.

“Perusahaan AI harus peduli bagaimana konten buatan manusia terus ada dan dapat diakses,” tutur Deckelmann.

Studi terbaru dari Epoch AI ini dijadwalkan untuk dipresentasikan di Konferensi Internasional Pembelajaran Mesin di Vienna, Austria, pertengahan tahun ini, menandai titik penting dalam diskusi global tentang masa depan kecerdasan buatan dan sumber belajar yang berkelanjutan.