Meta Ungkap Generasi Terbaru Model AI Llama: Maverick dan Scout dengan Arsitektur MoE yang Inovatif
Meta Luncurkan Llama 4 Maverick dan Scout: Era Baru Model Bahasa dengan Arsitektur MoE
Meta kembali menggebrak dunia kecerdasan buatan (AI) dengan memperkenalkan dua model bahasa besar (LLM) teranyar dalam keluarga Llama 4: Llama 4 Scout dan Llama 4 Maverick. Pengumuman yang dirilis pada Sabtu, 5 April 2025 ini menandai langkah signifikan dalam pengembangan AI, khususnya dengan adopsi arsitektur Mixture of Experts (MoE) yang inovatif.
"Hari ini, kami dengan bangga memperkenalkan Llama 4 Scout dan Llama 4 Maverick, model open-weight yang dirancang untuk memproses volume teks yang lebih besar dibandingkan pendahulunya. Ini adalah kali pertama kami mengimplementasikan arsitektur Mixture of Experts (MoE)," demikian pernyataan resmi dari Meta.
Model open-weight mengacu pada ketersediaan publik parameter atau 'bobot' dari model LLM, memungkinkan peneliti dan pengembang untuk mempelajari dan memodifikasi model sesuai kebutuhan mereka. Sementara itu, arsitektur MoE memungkinkan model untuk menggunakan beberapa sub-model khusus (disebut experts) untuk menangani berbagai aspek input teks, sehingga meningkatkan efisiensi dan kinerja.
Keunggulan Maverick dan Scout: Efisiensi dan Kemampuan Multimodal
Kedua model LLM terbaru ini dilatih dengan memanfaatkan sejumlah besar data teks, gambar, dan video tanpa label. Pendekatan ini memberikan pemahaman visual yang lebih komprehensif, memungkinkan model untuk menginterpretasikan dan merespons input multimodal dengan lebih baik. Pemanfaatan arsitektur MoE juga berkontribusi pada efisiensi komputasional yang lebih tinggi, baik dalam proses pelatihan maupun dalam menjawab pertanyaan atau perintah.
Secara spesifik, Llama 4 Scout dapat beroperasi dengan hanya menggunakan satu GPU Nvidia H100, sementara Llama 4 Maverick membutuhkan daya yang lebih besar, yakni satu sistem Nvidia H100 DGX atau yang setara. Dari segi parameter, Maverick memiliki total 400 miliar parameter, dengan hanya 17 miliar parameter yang aktif dan 128 experts. Scout, di sisi lain, memiliki 109 miliar parameter total, 17 miliar parameter aktif, dan 16 experts.
Dalam konteks LLM, parameter aktif adalah variabel internal yang disesuaikan oleh model selama pelatihan untuk mengoptimalkan kinerja dan kemampuan menghasilkan teks yang relevan dan akurat. Experts adalah sub-model khusus yang menangani berbagai aspek pemrosesan dan generasi teks.
Maverick: Sang Asisten Virtual Unggulan
Llama 4 Maverick diposisikan sebagai model LLM yang lebih mumpuni dibandingkan Scout. Hasil pengujian internal menunjukkan bahwa Maverick sangat cocok untuk digunakan sebagai asisten virtual dan dalam percakapan santai. Model ini mampu menghasilkan teks kreatif yang diklaim melampaui kemampuan GPT-4o dari OpenAI dan Gemini 2.0 dari Google.
Maverick juga unggul dalam pemecahan masalah, penalaran, kemampuan multibahasa, menjawab pertanyaan kompleks dengan konteks panjang, pengkodean, dan interpretasi gambar.
Scout: Ahli dalam Pemrosesan Dokumen Panjang
Scout, sebagai 'saudara' Maverick, memiliki keunggulan dalam tugas-tugas yang lebih ringan, seperti meringkas dokumen dan penalaran berbasis kode besar. Scout juga memiliki 'jendela' konteks yang sangat besar, yaitu 10 juta token. Token dalam model LLM adalah potongan teks mentah yang dapat memecah kalimat menjadi suku kata. Kemampuan ini memungkinkan Scout untuk memproses dokumen yang sangat panjang dan memberikan respons yang relevan.
"Llama Scout adalah model terbaik di kelasnya untuk mengolah gambar, menyelaraskan instruksi pengguna dengan konsep visual yang relevan, dan memberikan respons yang kontekstual secara visual," jelas Meta.
Behemoth: Model Masa Depan dengan Performa Superior
Selain Maverick dan Scout, Meta juga sedang mengembangkan model LLM lain yang disebut Behemoth. Model ini masih dalam tahap pengembangan dan diposisikan sebagai model yang lebih unggul dari Maverick dan Scout. Behemoth memiliki 2 triliun parameter total, 288 miliar parameter aktif, dan 16 experts. Spesifikasi ini memungkinkan Behemoth untuk melampaui performa model AI pesaing seperti GPT-4.5, Claude 3.7 Sonnet, dan Gemini 2.0 Pro.
Hasil Pengujian: Mengungguli Kompetitor
Hasil pengujian internal Meta menunjukkan bahwa Llama 4 Maverick mencapai skor yang mengesankan dalam tugas penalaran visual, dengan nilai 90 pada pengujian ChartQA dan 94,4 pada DocVQA. Nilai ini melampaui GPT-4o dan Gemini 2.0 Flash. Dalam tugas penalaran, Maverick mencatat skor 73,7 di pengujian MathVista dan 80,5 di MMLU Pro, menunjukkan kemampuan penalaran yang kuat. Untuk tugas pemrograman, Maverick meraih skor 43,4 pada LiveCodeBench, lebih tinggi dari GPT-4o dan Gemini 2.0 Flash, tetapi masih di bawah DeepSeek v.31. Kinerja asisten Maverick juga didukung oleh peringkat ELO 1417 di LMArena.
Scout, meskipun lebih kecil, juga menunjukkan performa yang solid, dengan skor 88,8 di ChatQA, 94,4 di DocVQA, dan 74,3 di MMLU Pro. Nilai ini menyoroti efektivitas Scout dalam penalaran dan respons terhadap gambar, terutama dengan penggunaan GPU tunggal.
Behemoth, yang masih dalam pengembangan, menunjukkan hasil yang menjanjikan dengan skor 95 pada Math 500, 82,2 di MMLU Pro, 73,7 di GPQA Diamond, dan 85,8 di MMLU Multilingual. Skor ini mengindikasikan bahwa Behemoth melampaui Claude Sonnet 3.7, Gemini 2.0 Pro, dan GPT-4.5 dalam tugas penalaran multibahasa dan STEM.
Pertimbangan Etis dan Keamanan
Seluruh model yang diperkenalkan oleh Meta telah disesuaikan untuk menolak menjawab pertanyaan-pertanyaan kontroversial. Meta menekankan bahwa Llama akan memberikan respons yang lebih seimbang terhadap topik sosial dan politik, berbeda dengan model sebelumnya. Model Llama juga dirancang untuk memberikan jawaban yang lebih netral, sehingga hasilnya mungkin tidak terlalu menarik.
Namun, perlu dicatat bahwa model Llama ini tidak dikategorikan sebagai model penalaran, seperti model o1 atau o3-mini dari OpenAI. Model penalaran memeriksa fakta jawaban dan umumnya memberikan respons yang lebih akurat, tetapi proses ini membutuhkan waktu yang lebih lama dibandingkan model tradisional yang memproses jawaban tanpa penalaran atau penambahan konteks.