Munculnya LLM telah membuka kembali perdebatan tentang batasan kecerdasan mesin dan membutuhkan tolok ukur baru tentang apa yang dimaksud dengan penalaran. Melalui LLM, teknologi ini diharapkan mesin dapat memiliki akal sehat seperti manusia.
Munculnya LLM telah membuka kembali perdebatan tentang batasan kecerdasan mesin dan membutuhkan tolok ukur baru tentang apa yang dimaksud dengan penalaran. Melalui LLM, teknologi ini diharapkan mesin dapat memiliki akal sehat seperti manusia.
Sejak dirilis ke publik kurang dari dua tahun lalu, model bahasa besar (large language models/LLM) seperti yang mendasari ChatGPT telah menghasilkan kemajuan yang menarik dan provokatif dalam kecerdasan mesin.
LLM adalah model bahasa berskala besar yang terkenal karena kemampuannya untuk mencapai tujuan umum dalam pemahaman dan pembangkitan bahasa.
Beberapa peneliti dan komentator telah berspekulasi bahwa alat-alat ini dapat mewakili langkah yang menentukan menuju mesin yang menunjukkan artificial general intelligence atau kecerdasan umum buatan. Kecerdasan umum buatan merupakan berbagai kemampuan yang terkait dengan kecerdasan manusia. Dengan demikian hal tersebut dapat memenuhi pencarian selama 70 tahun dalam penelitian kecerdasan buatan (artificial intelligence/AI).
"Salah satu tonggak dalam perjalanan itu adalah demonstrasi akal sehat mesin (machine common sense). Bagi manusia, akal sehat adalah hal yang jelas tentang orang-orang dan kehidupan sehari-hari," tulis Mayank Kejriwal, Henrique Santos, Alice M Mulvehill, Ke Shen, Deborah L McGuinness dan Henry Lieberman dalam artikel yang diterbitkan di nature.com.
Manusia tahu dari pengalaman bahwa benda kaca itu rapuh atau bahwa tidak sopan menyajikan daging saat seorang teman vegan berkunjung. Seseorang dikatakan kurang memiliki akal sehat saat melakukan kesalahan yang biasanya tidak dilakukan kebanyakan orang. Dalam hal itu, generasi LLM saat ini sering kali gagal.
LLM biasanya berhasil dengan baik pada ujian yang melibatkan unsur hafalan. Misalnya, model GPT-4 pada ChatGPT dilaporkan dapat lulus ujian lisensi untuk dokter dan pengacara AS. Namun, model tersebut dan model serupa mudah dibuat bingung oleh teka-teki sederhana.
"Misalnya, saat kami bertanya kepada ChatGPT, 'Riley kesakitan. Bagaimana perasaan Riley setelahnya?', jawaban terbaiknya dari daftar pilihan ganda adalah 'sadar', bukan 'menyakitkan.'
Saat ini, pertanyaan pilihan ganda seperti ini banyak digunakan untuk mengukur akal sehat mesin mirip dengan SAT, ujian yang digunakan untuk penerimaan universitas AS. Namun, pertanyaan semacam itu hanya mencerminkan sedikit dari dunia nyata, seperti pemahaman intuitif manusia tentang hukum fisika yang berkaitan dengan panas atau gravitasi, dan konteks interaksi sosial.
"Akibatnya, mengukur seberapa dekat LLM dalam menampilkan perilaku seperti manusia masih menjadi masalah yang belum terpecahkan," tulis Kejriwal dan teman-temannya tersebut.
Di sisi lain, manusia pandai menghadapi situasi yang tidak pasti dan ambigu. Sering kali, orang puas dengan jawaban yang memuaskan alih-alih menghabiskan banyak kapasitas kognitif untuk menemukan solusi optimal misalnya dengan membeli sereal di rak supermarket yang cukup bagus, alih-alih menganalisis setiap pilihan.
Manusia dapat beralih dengan cekatan antara cara berpikir intuitif dan deliberatif, menangani skenario yang tidak mungkin muncul, dan merencanakan atau menyusun strategi seperti yang dilakukan orang saat mengalihkan rute yang sudah dikenal setelah menghadapi lalu lintas yang padat, misalnya.
"Apakah mesin akan mampu melakukan hal serupa? Dan bagaimana peneliti akan mengetahui secara pasti apakah sistem AI berada di jalur untuk memperoleh kemampuan tersebut?" ujar Kejriwal dan teman-teman.
Untuk menjawab pertanyaan-pertanyaan tersebut mengharuskan ilmuwan komputer untuk terlibat dengan disiplin ilmu seperti psikologi perkembangan dan filsafat pikiran. Pemahaman yang lebih baik tentang dasar-dasar kognisi juga diperlukan untuk merancang metrik yang lebih baik untuk menilai kinerja LLM. Saat ini, masih belum jelas apakah model AI bagus dalam meniru manusia dalam beberapa tugas atau apakah metrik pembandingnya sendiri buruk.
Kemajuan yang Stabil
Penelitian tentang akal sehat mesin dimulai pada lokakarya tahun 1956 yang berpengaruh di Dartmouth, New Hampshire, yang mempertemukan para peneliti AI terkemuka. Kerangka kerja simbolis berbasis logika yang menggunakan huruf atau operator logika untuk menggambarkan hubungan antara objek dan konsep kemudian dikembangkan untuk menyusun pengetahuan akal sehat tentang waktu, peristiwa, dan dunia fisik.
Misalnya, serangkaian pernyataan 'jika ini terjadi, maka ini akan terjadi' dapat diprogram secara manual ke dalam mesin dan kemudian digunakan untuk mengajari mereka fakta akal sehat. Bahwa objek yang tidak didukung akan jatuh di bawah gravitasi.
Penelitian tersebut menetapkan visi akal sehat mesin yang berarti membangun program komputer yang belajar dari pengalaman mereka seefektif manusia. Secara lebih teknis, tujuannya adalah untuk membuat mesin yang secara otomatis menyimpulkan sendiri kelas konsekuensi langsung yang cukup luas dari apa pun yang diberitahukan kepadanya dan apa yang sudah diketahuinya, dengan serangkaian aturan.
Dengan demikian, akal sehat mesin melampaui pembelajaran yang efisien hingga mencakup kemampuan seperti refleksi diri dan abstraksi. Pada intinya, akal sehat membutuhkan pengetahuan faktual dan kemampuan untuk bernalar dengan pengetahuan itu.
Menghafal serangkaian fakta yang besar tidaklah cukup. Sama pentingnya untuk menyimpulkan informasi baru dari informasi yang ada, yang memungkinkan pengambilan keputusan dalam situasi baru atau yang tidak pasti.
Upaya awal untuk memberi mesin kekuatan pengambilan keputusan tersebut melibatkan pembuatan basis data pengetahuan terstruktur, yang berisi konsep-konsep yang masuk akal dan aturan-aturan sederhana tentang cara kerja dunia. Upaya-upaya seperti proyek Cyc (proyek kecerdasan buatan jangka panjang yang bertujuan untuk mengumpulkan ontologi komprehensif dan basis pengetahuan yang mencakup konsep dasar dan aturan tentang cara kerja dunia) pada tahun 1980-an merupakan salah satu yang pertama melakukan hal ini dalam skala besar.
Cyc dapat mewakili pengetahuan relasional, misalnya tidak hanya bahwa seekor anjing 'adalah' hewan (kategorisasi), tetapi bahwa anjing 'membutuhkan' makanan. Ia juga berupaya untuk menggabungkan, menggunakan notasi simbolik seperti 'adalah' sebagai pengetahuan yang bergantung pada konteks.
Salah contoh dari Cyc misalnya, bahwa 'berlari' dalam atletik berarti sesuatu yang berbeda dari 'berlari' dalam konteks pertemuan bisnis. Dengan demikian, Cyc memungkinkan mesin untuk membedakan antara pengetahuan faktual, seperti 'Presiden pertama Amerika Serikat adalah George Washington,' dan pengetahuan yang masuk akal, seperti 'kursi adalah tempat duduk.'
Lalu bagaimana sistem AI bereaksi terhadap contoh ketidakpastian dan kebaruan seperti itu akan menentukan laju evolusi menuju akal sehat mesin. Namun, metode yang lebih baik juga diperlukan untuk melacak kemajuan. Dan menilai secara ketat seberapa baik LLM tertentu memberikan jawaban yang masuk akal lebih sulit daripada yang terlihat. hay/I-1