Studi Ungkap Peningkatan 'Halusinasi' pada Kecerdasan Buatan Seiring Kemajuan Teknologi

Studi Ungkap Peningkatan 'Halusinasi' pada Kecerdasan Buatan Seiring Kemajuan Teknologi

Seiring dengan perkembangan pesat dalam bidang kecerdasan buatan (AI), sebuah studi terbaru menyoroti paradoks yang mengkhawatirkan: semakin canggih sebuah model AI, semakin besar pula kecenderungannya untuk menghasilkan informasi yang tidak akurat atau 'halusinasi'. Fenomena ini, yang didefinisikan sebagai situasi di mana AI memberikan jawaban yang tidak sesuai dengan sumber atau realitas yang ada, menjadi perhatian utama bagi para peneliti dan pengembang.

Riset dari OpenAI menunjukan bahwa model-model terbarunya, termasuk o3 dan o4-mini, rentan terhadap halusinasi dalam berbagai skenario pengujian. Dalam pengujian PersonQA, yang melibatkan pertanyaan tentang tokoh publik, o3 menghasilkan jawaban yang salah sebanyak 33% dari waktu, sedangkan o4-mini menunjukkan tingkat halusinasi yang lebih tinggi, mencapai 41%. Hasil yang lebih mencolok ditemukan dalam pengujian SimpleQA, di mana o3 memberikan informasi yang tidak akurat dalam 51% kasus, sementara o4-mini melonjak menjadi 79%. OpenAI menjelaskan bahwa o4-mini sengaja dirancang untuk memberikan respons cepat, yang mungkin mengorbankan akurasi.

Model GPT-4.5, juga diuji oleh OpenAI, menunjukkan tingkat halusinasi yang lebih rendah dalam SimpleQA, yaitu 37,1%. Namun, pengujian oleh Vectara, sebuah platform agen dan asisten AI, mengungkapkan bahwa model AI berbasis penalaran (reasoning) tertentu justru berkinerja lebih buruk daripada model tradisional dalam merangkum artikel berita. Model o3 mencatat tingkat halusinasi 6,8%, sementara model R1 dari DeepSeek mencapai 14,3%, jauh lebih tinggi daripada DeepSeek-V2.5 yang hanya 2,4%. Hasil serupa juga ditemukan pada model Granite 3.2 buatan IBM, di mana versi 2B yang lebih kecil menunjukkan tingkat halusinasi 16,5%, dibandingkan dengan 8,7% pada versi 8B yang lebih besar.

Transluce, sebuah firma penelitian AI, menjelaskan bahwa model seperti o3 dirancang untuk memaksimalkan kemungkinan memberikan jawaban, bahkan ketika tidak memiliki keyakinan penuh terhadap informasi yang ada. Akibatnya, AI cenderung memberikan respons meskipun tidak mengetahui jawaban yang benar. Selain itu, model AI dilatih dengan kumpulan data tertentu, dan ketika dihadapkan pada pertanyaan di luar cakupan data tersebut, AI akan berusaha memberikan jawaban yang paling mungkin, meskipun tidak sepenuhnya akurat. Jawaban ini sering kali disampaikan dengan gaya bahasa yang meyakinkan, sehingga sulit dibedakan dari informasi yang benar.

OpenAI mengakui bahwa model mereka memiliki tingkat halusinasi yang signifikan dan cenderung membuat klaim yang definitif. CEO OpenAI, Sam Altman, bahkan berpendapat bahwa halusinasi merupakan bagian dari fitur chatbot, bukan bug yang perlu diperbaiki. Pendekatan ini berbeda dengan perusahaan AI lain seperti Google, Microsoft, dan Anthropic, yang sedang berupaya mengatasi masalah halusinasi AI. Google dan Microsoft telah merilis produk seperti Microsoft Correction dan Google Vertex untuk menandai informasi yang mungkin keliru yang diberikan oleh bot AI mereka.

Para ahli masih meragukan efektivitas solusi tersebut. Beberapa peneliti mengusulkan agar model AI dilatih untuk mengatakan "Saya tidak tahu" ketika tidak memiliki informasi yang relevan. Alternatif lain adalah menggunakan teknik "retrieval augmented generation", di mana bot AI mengambil referensi dari dokumen lain yang relevan dengan pertanyaan. Dengan menyertakan dokumen ini sebagai referensi tambahan, diharapkan jawaban yang diberikan akan lebih akurat dan dapat diandalkan.

Berikut poin-poin penting yang dapat diambil dari berita ini:

  • Model AI yang lebih canggih memiliki kecenderungan lebih tinggi untuk berhalusinasi.
  • OpenAI mengakui masalah halusinasi pada model mereka.
  • Beberapa perusahaan AI sedang berupaya mengatasi halusinasi AI.
  • Para peneliti mengusulkan pelatihan AI untuk mengakui ketidaktahuan atau menggunakan referensi eksternal.