Bias Bahasa Dorong Jepang Ciptakan Teknologi ChatGPT Versi Sendiri

Masyarakat Jepang merasa bahwa sistem AI yang dilatih dalam bahasa bahasa Inggris tidak dapat memahami seluk-beluk bahasa dan budaya Jepang. Struktur kalimat dalam bahasa yang sangat berbeda, mendorong Jepang pengembangan ChatGPT versi sendiri.

Generative Pre-training Transformer atau ChatGPT adalah kecerdasan buatan (artificial intelligence/AI) yang cara kerjanya memakai format percakapan. Pengguna alat yang diluncurkan pada 30 November 2022 seolah sedang bertanya dengan guru di kelas, dan secara otomatis memperoleh jawaban dalam waktu singkat.

ChatGPT dikembangkan oleh OpenAI sebuah laboratorium penelitian kecerdasan buatan yang berpusat di Ohio, Amerika Serikat. Fungsinya sangat beragam, seperti membuat obrolan otomatis di aplikasi percakapan, membantu dalam pembuatan konten, atau bahkan membantu dalam penerjemahan berbagai bahasa.

Namun alih-alih menggunakan alat dari OpenAI, Jepang kini sedang membangun ChatGPT versinya sendiri. Pemerintah Jepang dan perusahaan teknologi besar seperti NEC, Fujitsu, dan SoftBank menghabiskan ratusan juta dollar untuk menciptakan sistem kecerdasan buatan.

Secara teknologi, masih menggunakan dasar yang sama yang dikenal sebagai model bahasa umum (large language models/LLM). Perbedaannya masukan datanya berbahasa Jepang, ketimbang terjemahan versi dari bahasa Inggris.

"LLM publik saat ini, seperti ChatGPT, unggul dalam bahasa Inggris, namun sering kali gagal dalam bahasa Jepang karena perbedaan dalam sistem alfabet, keterbatasan data, dan faktor lainnya," kata Keisuke Sakaguchi, peneliti di Universitas Tohoku di Jepang yang berspesialisasi dalam bahasa pengolahan dikutip dari Scientific American.

LLM biasanya menggunakan sejumlah besar data dari sumber yang tersedia untuk umum untuk mempelajari pola ucapan dan prosa alami. Mereka dilatih untuk memprediksi kata berikutnya berdasarkan kata-kata sebelumnya dalam sebuah teks. Sebagian besar teks yang digunakan untuk melatih model ChatGPT sebelumnya GPT-3 yang berbahasa Inggris.

Kemampuan ChatGPT yang menakutkan untuk melakukan percakapan seperti manusia, telah membuat para peneliti senang sekaligus prihatin. Beberapa orang melihatnya sebagai alat yang berpotensi menghemat tenaga kerja, yang lain khawatir bahwa hal itu dapat digunakan untuk mengarang makalah atau data ilmiah.

Di Jepang, terdapat kekhawatiran bahwa sistem AI yang dilatih pada kumpulan data dalam bahasa lain tidak dapat memahami seluk-beluk bahasa dan budaya Jepang karena struktur kalimat dalam bahasa Jepang sangat berbeda dengan bahasa Inggris. Oleh karena itu ChatGPT harus menerjemahkan query bahasa Jepang ke bahasa Inggris, menemukan jawabannya, lalu menerjemahkan responsnya kembali ke bahasa Jepang.

Meskipun bahasa Inggris hanya memiliki 26 huruf, tulisan Jepang terdiri dari dua set yang terdiri dari 48 karakter dasar, ditambah 2.136 karakter Tiongkok atau kanji yang biasa digunakan. Kebanyakan kanji memiliki dua pengucapan atau lebih, dan ada sekitar 50.000 kanji yang jarang digunakan.

"Mengingat kompleksitas tersebut, tidak mengherankan jika ChatGPT dapat tersandung pada aspek bahasanya. Dalam bahasa Jepang, ChatGPT terkadang menghasilkan karakter yang sangat langka yang belum pernah dilihat kebanyakan orang sebelumnya, dan menghasilkan kata-kata aneh yang tidak diketahui," tutur Sakaguchi.

Agar LLM bermanfaat dan bahkan layak secara komersial, LLM harus mencerminkan praktik budaya dan bahasa secara akurat. Jika ChatGPT diminta untuk menulis email lamaran pekerjaan dalam bahasa Jepang, misalnya, hal ini mungkin menghilangkan ekspresi kesopanan standar dan terlihat seperti terjemahan yang jelas dari bahasa Inggris.

Untuk mengukur seberapa sensitif LLM terhadap budaya Jepang, sekelompok peneliti meluncurkan Rakuda, sebuah peringkat seberapa baik LLM dapat menjawab pertanyaan terbuka tentang topik Jepang. Salah satu pendirinya, Sam Passaglia, dan rekan-rekannya meminta ChatGPT untuk membandingkan kelancaran dan kesesuaian budaya antara jawaban dengan perintah standar.

Penggunaan alat ini untuk menentukan peringkat hasil didasarkan pada pracetak yang diterbitkan pada bulan Juni lalu yang menunjukkan bahwa GPT-4 87 persen setuju dengan penilaian manusia. LLM Jepang telah menjadi open-source terbaik berada di peringkat keempat di Rakuda, sementara di posisi pertama, mungkin tidak mengherankan mengingat ia juga menjadi juri kompetisi, adalah GPT-4.

"Tentu saja LLM Jepang menjadi jauh lebih baik, tetapi mereka jauh tertinggal dari GPT-4," kata Passaglia, fisikawan di Universitas Tokyo yang mempelajari model bahasa Jepang. Namun secara prinsip, kata Passaglia, tidak ada alasan bahwa LLM Jepang tidak dapat menyamai atau melampaui GPT-4 di masa depan.

"Secara teknis hal ini tidak dapat diatasi, namun hanya masalah sumber daya," kata dia.

Gunakan Superkomputer

Salah satu upaya besar untuk menciptakan LLM Jepang adalah dengan menggunakan superkomputer Jepang Fugaku, salah satu yang tercepat di dunia, yang melatihnya terutama pada input bahasa Jepang. Didukung oleh Institut Teknologi Tokyo, Universitas Tohoku, Fujitsu dan kelompok pusat penelitian RIKEN yang didanai pemerintah, LLM yang dihasilkan diharapkan akan dirilis tahun depan.

Superkomputer ini akan bergabung dengan LLM sumber terbuka lainnya dalam membuat kodenya tersedia untuk semua pengguna, tidak seperti GPT-4 dan model kepemilikan lainnya. Menurut Sakaguchi, yang terlibat dalam proyek ini, tim berharap dapat memberikan setidaknya 30 miliar parameter, yang merupakan nilai yang mempengaruhi keluarannya dan dapat menjadi tolak ukur ukurannya.

Namun, Fugaku LLM mungkin akan digantikan oleh perusahaan yang lebih besar. Kementerian Pendidikan, Kebudayaan, Olahraga, Ilmu Pengetahuan dan Teknologi Jepang mendanai pembuatan program AI Jepang yang disesuaikan dengan kebutuhan ilmiah yang akan menghasilkan hipotesis ilmiah dengan belajar dari penelitian yang dipublikasikan, sehingga mempercepat identifikasi target penyelidikan. Model ini dapat dimulai dengan 100 miliar parameter, yang berarti setengah dari ukuran GPT-3, dan akan diperluas seiring waktu.

"Kami berharap dapat secara dramatis mempercepat siklus penelitian ilmiah dan memperluas ruang pencarian," kata Makoto Taiji, wakil direktur Pusat Penelitian Dinamika Biosistem RIKEN, tentang proyek tersebut. Pengembangan LLM ini memerlukan biaya setidaknya 204 juta dollar AS dan diperkirakan akan dirilis ke publik pada 2031. hay/I-1