Studi Ungkap Peningkatan 'Halusinasi' pada Model AI Generatif Terkini

Studi Ungkap Peningkatan 'Halusinasi' pada Model AI Generatif Terkini

Kecerdasan buatan (AI) terus berkembang pesat, menawarkan berbagai solusi inovatif di berbagai bidang. Namun, seiring dengan kemajuan ini, muncul pula tantangan baru. Sebuah studi terbaru mengungkapkan bahwa model AI yang semakin canggih justru menunjukkan kecenderungan yang lebih tinggi untuk menghasilkan informasi yang tidak akurat atau dikenal dengan istilah "halusinasi".

Halusinasi pada AI merujuk pada situasi di mana model menghasilkan respons yang tidak sesuai dengan data atau fakta yang ada. Informasi yang diberikan bisa berupa klaim palsu, detail yang tidak relevan, atau bahkan narasi yang sepenuhnya fiktif. Fenomena ini menjadi perhatian serius karena dapat mengurangi kepercayaan terhadap AI dan menimbulkan konsekuensi negatif dalam aplikasi praktis.

OpenAI, perusahaan di balik model AI terkemuka, melakukan pengujian mendalam terhadap model-model terbarunya, termasuk o3, o4-mini, dan GPT-4.5. Pengujian dilakukan dengan memberikan pertanyaan dalam berbagai format, mulai dari pertanyaan tentang tokoh publik (PersonQA) hingga pertanyaan faktual sederhana (SimpleQA).

Hasil pengujian menunjukkan bahwa tingkat halusinasi bervariasi antara model. Model o3 menunjukkan tingkat halusinasi 33% pada PersonQA dan 51% pada SimpleQA. Sementara itu, o4-mini menunjukkan tingkat halusinasi lebih tinggi, mencapai 41% pada PersonQA dan 79% pada SimpleQA. GPT-4.5 menunjukkan performa lebih baik dengan tingkat halusinasi 37,1% pada SimpleQA.

Platform agen dan asisten AI, Vectara, juga melakukan serangkaian pengujian untuk mengukur tingkat halusinasi model AI. Dalam pengujian ini, model AI diminta untuk meringkas artikel berita, dan hasilnya dibandingkan dengan isi artikel asli. Hasilnya menunjukkan bahwa beberapa model AI reasoning (berbasis penalaran) justru menghasilkan kinerja yang lebih buruk dibandingkan dengan model tradisional.

Studi tersebut menyoroti bahwa model o3 memiliki tingkat halusinasi 6,8%, sementara model R1 buatan DeepSeek mencapai 14,3%. Model DeepSeek-V2.5 hanya mencatatkan 2,4% halusinasi. Model AI reasoning Granite 3.2 buatan IBM juga menunjukkan hasil serupa, dengan versi 8B memiliki tingkat halusinasi 8,7%, sedangkan versi 2B mencapai 16,5%.

Firma penelitian tentang AI, Transluce, menjelaskan bahwa salah satu penyebab halusinasi adalah desain model AI yang berfokus pada memberikan jawaban dengan probabilitas tertinggi, bahkan jika informasi yang ada tidak sepenuhnya akurat. Model AI cenderung memberikan respons daripada mengakui ketidaktahuan.

Selain itu, model AI dilatih menggunakan kumpulan data tertentu. Ketika model menerima pertanyaan di luar cakupan data yang ada, AI akan berusaha memberikan jawaban terbaik berdasarkan informasi yang tersedia, meskipun informasi tersebut mungkin tidak sepenuhnya tepat. Respons ini sering kali disampaikan dengan gaya bahasa yang meyakinkan, sehingga sulit dibedakan dari informasi yang benar.

Menanggapi fenomena halusinasi, OpenAI mengakui bahwa model mereka memiliki tingkat halusinasi yang signifikan. CEO OpenAI, Sam Altman, bahkan berpendapat bahwa halusinasi adalah bagian dari fitur chatbot, bukan bug yang perlu diperbaiki. Hal ini berbeda dengan pendekatan perusahaan AI lain seperti Google, Microsoft, dan Anthropic, yang berupaya mengatasi masalah halusinasi dengan mengembangkan alat dan teknik baru.

Beberapa peneliti mengusulkan agar model AI dilatih untuk mengatakan "saya tidak tahu" ketika tidak memiliki informasi yang memadai. Pendekatan lain adalah dengan menggunakan teknik "retrieval augmented generation", di mana model AI mencari referensi dari dokumen lain yang relevan untuk memberikan jawaban yang lebih akurat.