Keterbatasan Model AI Multimodal dalam Menginterpretasi Waktu: Studi Menunjukkan Tingkat Akurasi Rendah
Keterbatasan Model AI Multimodal dalam Menginterpretasi Waktu: Studi Menunjukkan Tingkat Akurasi Rendah
Sebuah penelitian terbaru yang dilakukan oleh peneliti dari University of Edinburgh mengungkap kelemahan signifikan pada kemampuan tujuh model bahasa besar (LLM) multimodal populer dalam menafsirkan informasi waktu dari gambar jam analog dan kalender. Studi ini menunjukkan bahwa meskipun model-model AI canggih ini mampu menghasilkan gambar realistis, menulis karya sastra, dan bahkan melakukan pemrograman, mereka mengalami kesulitan yang mengejutkan dalam tugas-tugas sederhana yang berkaitan dengan waktu. Temuan ini menimbulkan pertanyaan mendasar mengenai kesiapan teknologi AI untuk diintegrasikan sepenuhnya ke dalam aplikasi dunia nyata yang sensitif terhadap waktu.
Para peneliti menguji tujuh LLM multimodal, termasuk GPT-4 dan GPT-01 (OpenAI), Gemini 2.0 (Google), Claude 3.5 Sonnet (Anthropic), Llama 3.2-11B-Vision-Instruct (Meta), Qwen2-VL7B-Instruct, dan MiniCPM-V-2.6 (ModelBest). Pengujian dilakukan dengan menggunakan beragam gambar jam analog—termasuk jam dengan angka Romawi, warna dial yang berbeda, dan bahkan jam tanpa jarum detik—serta gambar kalender sepuluh tahun. Model-model AI ini diberi pertanyaan tentang waktu yang ditunjukkan pada jam dan pertanyaan-pertanyaan yang berkaitan dengan kalender, mulai dari pertanyaan sederhana hingga yang lebih kompleks. Hasilnya mengecewakan. Tingkat akurasi keseluruhan dalam membaca jam analog jauh di bawah 25%, dengan kesulitan yang signifikan terlihat saat model-model tersebut berhadapan dengan jam yang memiliki desain tidak standar atau tanpa jarum detik. Kesulitan ini, menurut peneliti, kemungkinan besar disebabkan oleh kendala dalam mendeteksi jarum jam dengan tepat dan menafsirkan sudut-sudutnya pada permukaan jam.
Dalam pengujian kalender, meskipun Google Gemini 2.0 menunjukkan performa terbaik dalam membaca waktu pada jam, GPT-01 mencatat akurasi tertinggi (sekitar 80%) dalam menjawab pertanyaan kalender. Namun, bahkan model yang paling sukses sekalipun masih menghasilkan tingkat kesalahan sekitar 20%. Ini menunjukkan adanya kelemahan yang cukup signifikan dalam kemampuan AI untuk mengolah informasi temporal, bahkan dalam konteks yang relatif sederhana. Rohit Saxena dari School of Informatics di University of Edinburgh, yang memimpin studi ini, menekankan bahwa kemampuan untuk memahami dan menggunakan waktu merupakan keterampilan dasar yang dimiliki manusia sejak usia dini. Ketidakmampuan AI dalam hal ini, menurutnya, merupakan hambatan besar yang perlu segera diatasi. Ia menambahkan bahwa kekurangan ini akan menjadi kendala serius bagi integrasi AI ke dalam aplikasi dunia nyata yang membutuhkan ketepatan waktu, seperti sistem penjadwalan, otomatisasi, dan teknologi bantuan.
Kesimpulannya, penelitian ini menyoroti perlunya pengembangan lebih lanjut dalam arsitektur dan algoritma model AI agar mampu memahami dan memproses informasi waktu dengan akurasi yang lebih tinggi. Tantangan ini memiliki implikasi yang luas, terutama dalam pengembangan sistem AI yang berinteraksi langsung dengan manusia dan lingkungan di dunia nyata, di mana ketepatan waktu seringkali menjadi faktor kritis.
- Temuan Utama:
- Tingkat akurasi model AI dalam membaca jam analog kurang dari 25%.
- Kesulitan signifikan dalam membaca jam dengan desain non-standar.
- Akurasi pengolahan informasi kalender juga rendah, meskipun ada model yang menunjukkan performa lebih baik.
- Kekurangan ini menghambat integrasi AI dalam aplikasi dunia nyata yang sensitif terhadap waktu.