Visi komputer (computer vision) merupakan kecerdasan buatan yang melatih komputer menafsirkan dan memahami dunia visual. Teknologi ini berjalan dengan menggunakan gambar digital dari kamera serta model pembelajaran mendalam (deep learning), untuk mengidentifikasi dan mengklasifikasikan objek kemudian bereaksi terhadap apa yang dilihatnya.
Namun salah satu kelemahan dari visi komputer saat ini adalah sering menarik kesimpulan yang salah dari apa yang dilihat. Misalnya ketika robot sedang memproses konsep meja makan, bisa mengabaikan mangkuk yang terlihat oleh pengamat manusia, dengan memperkirakan piring berada dalam keadaan mengambang di atas meja, atau mengartikan garpu menembus mangkuk ketimbang bersandar di atasnya.
Pada penerapannya pada kasus nyata penarikan kesimpulan yang salah itu bisa berbahaya. Penerapan sistem visi komputer yang kurang baik pada mobil otonom (self driving) membuat kendaraan gagal mendeteksi objek seperti posisi pejalan kaki yang menyeberang jalan atau obyek lainnya.
Untuk mengatasi kesalahan ini, peneliti Massachusetts Institute of Technology (MIT) telah mengembangkan kerangka kerja yang membantu mesin melihat dunia seperti manusia. Sistem kecerdasan buatan baru mereka untuk menganalisis adegan belajar memahami objek dunia nyata hanya dari beberapa gambar, dan memahami adegan dalam hal objek yang dipelajari ini.
Para peneliti membangun kerangka kerja menggunakan pemrograman probabilitas, pendekatan kecerdasan buatan (artificial intelligence/AI) yang memungkinkan sistem untuk memeriksa silang objek yang terdeteksi terhadap data input. Fungsinya untuk melihat apakah gambar yang direkam dari kamera kemungkinan cocok dengan konsep ruang apapun.
"Inferensi probabilistik memungkinkan sistem untuk menyimpulkan apakah ketidaksesuaian kemungkinan disebabkan oleh noise pada gambar atau kesalahan dalam interpretasi konsep yang perlu diperbaiki dengan pemrosesan lebih lanjut," papar penulis utama mahasiswa PhD pada Fakultas Teknik Elektro dan Ilmu Komputer (EECS) serta Proyek Komputasi Probabilistik MIT, Nishad Gothoskar.
Perlindungan yang masuk akal ini memungkinkan sistem untuk mendeteksi dan memperbaiki banyak kesalahan yang mengganggu. Pemrograman probabilistik juga memungkinkan untuk menyimpulkan kemungkinan hubungan kontak antara objek dalam konsep, dan menggunakan alasan yang masuk akal tentang kontak ini untuk menyimpulkan posisi objek yang lebih akurat.
Jika sistem tidak tahu tentang hubungan kontak, maka bisa mengatakan bahwa sebuah objek melayang di atas meja itu akan menjadi penjelasan yang valid. Dari sudut pandang manusia secara fisik tidak realistis dan objek yang diletakkan di atas meja adalah posisi objek yang lebih mungkin.
"Karena sistem penalaran kita mengetahui jenis pengetahuan ini, ia dapat menyimpulkan pose yang lebih akurat. Itu adalah wawasan kunci dari pekerjaan ini, " kata Goshotskan seperti dikutip laman Scitechdaily.
Tingkatkan Kinerja
Selain meningkatkan keselamatan pada mobil otonom, visi komputer tersebut dapat meningkatkan kinerja sistem persepsi komputer yang harus menafsirkan pengaturan objek yang rumit. Contoh hal ini adalah robot yang bertugas membersihkan dapur yang berantakan.
Untuk mengembangkan sistem visi komputer, tim menggunakan sistem yang disebut 3D Scene Perception via Probabilistic Programming (3DP3), para peneliti mengambil konsep dari hari-hari awal penelitian kecerdasan buatan yaitu bahwa visi komputer dapat dianggap sebagai "kebalikan" (inverse) dari grafik komputer.
Jika grafik komputer berfokus pada menghasilkan gambar berdasarkan representasi konsep, maka isi komputer dapat dilihat sebagai kebalikan dari proses ini. Gothoskar dan rekan-rekannya membuat teknik ini lebih mudah dipelajari dan terukur dengan memasukkannya ke dalam kerangka kerja yang dibangun menggunakan pemrograman probabilistik.
"Pemrograman probabilistik memungkinkan kita untuk menuliskan pengetahuan kita tentang beberapa aspek dunia dengan cara yang dapat diinterpretasikan komputer, tetapi pada saat yang sama, memungkinkan kita untuk mengungkapkan apa yang tidak kita ketahui yaitu ketidakpastian. Jadi, sistem bisa belajar dari data secara otomatis dan juga otomatis mendeteksi ketika aturan tidak berlaku," jelas rekan penulis lulusan PhD EECS MIT, Marco Cusumano-Towner.
Dalam hal ini, model dikodekan dengan pengetahuan sebelumnya tentang adegan 3D. Misalnya, 3DP3 tahu bahwa adegan terdiri dari objek yang berbeda, dan objek ini sering terletak di atas satu sama lain, tetapi mungkin tidak selalu dalam hubungan yang sederhana. Hal ini memungkinkan model untuk bernalar tentang suatu konsep dengan lebih masuk akal.
Untuk menganalisis gambar suatu adegan, 3DP3 terlebih dahulu mempelajari objek-objek dalam adegan tersebut. Setelah diperlihatkan hanya lima gambar objek, masing-masing diambil dari sudut yang berbeda, 3DP3 mempelajari bentuk objek dan memperkirakan volume yang akan ditempatinya di ruang angkasa.
"Jika saya menunjukkan sebuah objek dari lima perspektif yang berbeda, Anda dapat membangun representasi yang cukup baik dari objek itu. Anda akan memahami warna, bentuknya, dan Anda akan dapat mengenali objek itu dalam banyak konsep berbeda," kata Gothoskar.
Ia menambahkan, hal itu jauh lebih sedikit data daripada pendekatan pembelajaran mendalam. Misalnya, sistem deteksi objek neural Dense Fusion memerlukan ribuan contoh pelatihan untuk setiap jenis objek.
"Sebaliknya, 3DP3 hanya membutuhkan beberapa gambar per objek, dan melaporkan ketidakpastian tentang bagian dari setiap objek yang tidak diketahuinya," ungkap dia. hay/I-1
Kemampuan sistem visi komputer dalam melihat objek layaknya mata manusia menjadi kendala bagi pengembangan mobil otonom dan pekerjaan mengganti peran manusia lain. Dengan sistem kecerdasan buatan deep learning, peneliti berhasil mengatasi kesalahan robot dalam memahami keadaan.
Mata Robot dengan Kemampuan Seperti Indra Manusia
07 Januari 2022, 00:00 WIB
Waktu Baca 4 menit