DeepSeek R1 Dituduh Meniru Gaya Bahasa dan Penalaran Google Gemini
Laboratorium kecerdasan buatan (AI) asal Tiongkok, DeepSeek, sedang menghadapi sorotan tajam terkait model penalaran terbarunya, DeepSeek R1. Model ini, yang menunjukkan performa impresif dalam berbagai pengujian matematika dan pemrograman, dituduh menggunakan data dari Google Gemini tanpa izin yang sah.
Kecurigaan ini pertama kali mencuat di kalangan peneliti AI setelah seorang programmer bernama Sam Paech dari Melbourne mengamati adanya kemiripan yang mencolok antara gaya bahasa DeepSeek R1-0528 dengan respons yang dihasilkan oleh Gemini 2.5 Pro. Melalui unggahannya di platform X (sebelumnya dikenal sebagai Twitter), Paech menyatakan bahwa struktur penalaran dan pilihan kata yang digunakan oleh DeepSeek R1 sangat mirip dengan model Gemini.
Pengembang di balik proyek SpeechMap juga menyampaikan pandangan serupa, mengklaim bahwa model DeepSeek menunjukkan "jejak" penalaran yang khas dari Gemini. Meskipun belum ada bukti teknis yang konklusif, pola kesamaan ini menimbulkan pertanyaan serius mengenai praktik pelatihan data yang diterapkan oleh DeepSeek.
Bukan Kasus Pertama
Tuduhan ini bukanlah yang pertama kali dialamatkan kepada DeepSeek. Pada Desember 2023, komunitas pengembang menemukan bahwa model DeepSeek V3 terkadang mengidentifikasi dirinya sebagai ChatGPT. Hal ini mengindikasikan kemungkinan bahwa model tersebut dilatih menggunakan log dari model milik OpenAI.
Selanjutnya, laporan dari Financial Times dan Bloomberg mengungkapkan bahwa OpenAI dan Microsoft menemukan indikasi bahwa DeepSeek menggunakan metode distilasi, yaitu melatih model baru dengan meniru output dari model AI besar seperti GPT atau Gemini. Bahkan, Microsoft menemukan kebocoran data dari akun pengembang OpenAI yang diduga terkait dengan DeepSeek.
Distilasi dan Risiko Kontaminasi Data
Meskipun teknik distilasi umum digunakan di kalangan pengembang AI, OpenAI secara tegas melarang penggunaan output produknya untuk menciptakan model pesaing. Saat ini, data pelatihan semakin rentan terhadap kontaminasi oleh konten AI dari situs web spam dan bot, sehingga menyaring data yang "murni" menjadi tantangan tersendiri.
Menurut Nathan Lambert, seorang peneliti di Allen Institute for AI (AI2), tuduhan bahwa DeepSeek menggunakan Gemini sebagai sumber pelatihan bukanlah hal yang mustahil. Lambert menambahkan bahwa praktik ini dapat menyebabkan masalah etika dan transparansi dalam pengembangan AI.
DeepSeek belum memberikan tanggapan resmi terhadap tuduhan ini. Namun, kasus ini memicu diskusi yang lebih luas mengenai etika, transparansi, dan kepemilikan data di era AI generatif yang berkembang pesat.