Alibaba Perkenalkan Qwen3: Model AI Open Source dengan Kemampuan Multibahasa dan Performa Tinggi

Raksasa teknologi asal Tiongkok, Alibaba, baru-baru ini mengumumkan peluncuran seri model bahasa besar (LLM) open source terbarunya, Qwen3. Model AI ini dirancang untuk mendukung ratusan bahasa dan dialek, termasuk beberapa bahasa daerah di Indonesia seperti Jawa, Bali, Minangkabau, dan Sunda.

Qwen3 diklaim sebagai salah satu model AI open source terbaik yang ada saat ini. Bahkan, dalam beberapa pengujian, performanya mampu melampaui model AI populer lainnya, seperti OpenAI-o1 dan DeepSeek R1. Alibaba merilis dua tipe model yang berbeda dalam seri Qwen3, yaitu Dense dan MoE (Mixture of Experts). Kedua tipe ini memiliki karakteristik teknis yang berbeda, terutama dalam hal performa dan efisiensi selama inferensi (proses menjawab pertanyaan, menerjemahkan, atau menyelesaikan kode).

Perbedaan Dense Model dan MoE Model

  • Dense Model: Pada model Dense, seluruh parameter model diaktifkan secara bersamaan setiap kali model digunakan. Hal ini menghasilkan output yang konsisten dan stabil di berbagai jenis tugas. Namun, karena semua parameter model bekerja, proses inferensi menjadi lebih berat dan membutuhkan konsumsi memori dan komputasi yang lebih besar. Contoh dari Dense model dalam seri ini adalah Qwen3-32B.
  • MoE Model: Berbeda dengan Dense, model MoE (Mixture of Experts) hanya mengaktifkan sebagian kecil dari parameter yang relevan berdasarkan tugas yang sedang dikerjakan. Model ini menggabungkan banyak "expert" (sub-model) di dalamnya, tetapi hanya memanggil expert yang sesuai saat inferensi. Hal ini membuat model menjadi jauh lebih efisien, mampu menghasilkan kualitas jawaban yang setara dengan model besar, tetapi dengan kebutuhan memori dan komputasi yang lebih rendah. Salah satu contoh MoE model adalah Qwen3-235B-A22B.

Kemampuan Hybrid Reasoning

Qwen3 dilengkapi dengan kemampuan hybrid reasoning, yang memungkinkan pengguna untuk memilih antara mode respons cepat atau mode berpikir mendalam untuk menyelesaikan masalah kompleks di bidang sains, matematika, dan rekayasa. Fitur ini dapat diakses melalui Qwen Chat dengan tombol Thinking Mode atau melalui perintah tertentu saat menggunakan API.

Model AI Qwen3 juga memperluas dukungan multibahasa hingga mencakup 119 bahasa dan dialek, termasuk bahasa-bahasa daerah di Indonesia (Jawa, Bali, Minangkabau, Sunda). Dari segi pelatihan, Qwen3 menggunakan dataset dua kali lebih besar dibandingkan pendahulunya, Qwen2.5, yaitu mencapai sekitar 36 triliun token. Token-token ini berasal dari berbagai sumber, termasuk hasil crawling web, ekstraksi dokumen, dan konten sintetis.

Perbandingan Performa dengan Model AI Lain

Qwen3-235B-A22B adalah model tercanggih dan terbesar dalam seri Qwen3. Kode "235B" mengindikasikan bahwa model ini memiliki total 235 miliar parameter. Jumlah parameter ini sangat besar, setara atau bahkan mendekati model-model proprietary kelas atas seperti OpenAI GPT-4 atau Gemini 2.5 Pro. Kode tambahan "A22B" menunjukkan bahwa hanya 22 miliar parameter yang aktif selama inferensi (karena ini adalah model MoE, bukan Dense penuh). Hal ini membuat model lebih efisien saat digunakan, tidak seberat model Dense 235B.

Saat ini, Qwen3-235B-A22B belum dirilis secara bebas ke publik dan masih digunakan secara internal atau terbatas. Model terbesar yang tersedia untuk publik adalah Qwen3-32B (Dense model).

Namun, secara statistik, Qwen3-235B-A22B diklaim menduduki peringkat teratas dalam sejumlah benchmark penting, bahkan mengungguli model AI populer dari OpenAI (o1), DeepSeek (R1), dan xAI (Grok). Klaim ini didasarkan pada hasil benchmark yang dipublikasikan oleh Alibaba melalui akun resmi @Alibaba_Qwen di X.

ArenaHard adalah salah satu benchmark yang menguji kemampuan penalaran sebuah LLM dalam menjawab pertanyaan-pertanyaan kompleks dari berbagai topik. Semakin tinggi skornya, semakin baik kemampuan penalaran model tersebut.

Performa unggul Qwen3-235B-A22B juga terlihat pada benchmark matematika dan sains seperti AIME'24 (85,7) dan AIME'25 (81,5), yang kembali mengungguli OpenAI o1 (74,3 / 79,2) dan Grok 3 Beta (83,9 / 77,3). Dalam pengujian coding melalui LiveCodeBench, Qwen3 mencatat skor 70,7, lebih tinggi dari OpenAI o1 (63,9) dan DeepSeek R1 (64,3). Skor CodeForces Qwen3 juga mengesankan di angka 2.056, lebih tinggi dari OpenAI o1 (1.891), DeepSeek R1 (2.029), Grok 3 (tidak tersedia), dan bahkan Gemini 2.5 Pro (2.001).

Keunggulan Qwen3-235B-A22B juga tampak dalam benchmark AI reasoning dan multibahasa seperti:

  • BFCL: 70,8 (unggul atas semua model kecuali Grok 3 yang tidak tersedia)
  • MultiIF: 71,9 (jauh di atas OpenAI o1 dengan 48,8 dan DeepSeek R1 dengan 67,7)

Sementara itu, versi model Dense-nya, Qwen3-32B, tetap tampil kompetitif dan hanya sedikit tertinggal dari versi MoE.

Secara keseluruhan, Qwen3 berhasil menunjukkan bahwa model AI open source kini dapat bersaing, bahkan mengungguli solusi komersial dari perusahaan-perusahaan AI raksasa seperti OpenAI, Google, dan xAI. Hal ini dapat membuka jalan bagi adopsi AI yang lebih terbuka, hemat biaya, dan fleksibel secara global.