Google kembali menggebrak dunia AI terbuka dengan memperkenalkan Gemma 4, keluarga model AI terbarunya. Diluncurkan pada April 2026, Gemma 4 dirancang khusus untuk alur kerja agen dan penalaran tingkat lanjut. Model ini memberikan "intelligence-per-parameter" yang belum pernah ada sebelumnya. Sejak generasi pertamanya, model Gemma telah diunduh lebih dari 400 juta kali, menciptakan ekosistem "Gemmaverse" dengan lebih dari 100.000 varian. Gemma 4 hadir dengan lisensi Apache 2.0 yang memungkinkan penggunaan komersial, memberikan fleksibilitas penuh bagi para pengembang.
Keluarga Model Gemma 4
Gemma 4 dikembangkan dari riset dan teknologi yang sama dengan Gemini 3, menjadikannya salah satu keluarga model paling tangguh yang dapat dijalankan di berbagai perangkat keras. Tersedia dalam empat ukuran serbaguna, Gemma 4 siap mengatasi logika kompleks dan alur kerja agen.
Berikut adalah gambaran singkat varian model Gemma 4:
| Model | Ukuran Parameter | Jendela Konteks | Catatan |
|---|---|---|---|
| Gemma 4 E2B | 2.3B efektif, 5.1B dengan embeddings | 128K | Model dense, cocok untuk perangkat edge, dukungan audio. |
| Gemma 4 E4B | 4.5B efektif, 8B dengan embeddings | 128K | Model dense, cocok untuk perangkat edge, dukungan audio. |
| Gemma 4 26B A4B | Mixture of Experts (MoE), 4B aktif / 26B total | 256K | Fokus pada latensi, kecepatan tinggi. |
| Gemma 4 31B | 31B dense model | 256K | Kualitas mentah maksimal, fondasi kuat untuk fine-tuning. |
Model 31B menempati peringkat ke-3 di leaderboard Arena AI, sementara model 26B A4B berada di posisi ke-6, mengungguli model lain yang ukurannya 20 kali lebih besar.
Peningkatan Efisiensi dengan Multi-Token Prediction (MTP) Drafters
Untuk semakin mendorong efisiensi, pada Mei 2026 Google merilis Multi-Token Prediction (MTP) drafters untuk keluarga Gemma 4. Drafters ini menggunakan arsitektur decoding spekulatif khusus yang memberikan peningkatan kecepatan hingga 3x tanpa mengurangi kualitas output atau logika penalaran.
Teknik ini mengatasi kendala latensi dalam inferensi LLM standar, yang seringkali terhambat oleh bandwidth memori. Prosesor menghabiskan banyak waktu memindahkan miliaran parameter dari VRAM hanya untuk menghasilkan satu token.
Bagaimana cara kerjanya? Decoding spekulatif memisahkan generasi token dari verifikasi. Model target yang "berat" (misalnya, Gemma 4 31B) dipasangkan dengan drafter yang "ringan" (model MTP). Drafter ini dapat "memprediksi" beberapa token masa depan sekaligus dalam waktu lebih singkat daripada yang dibutuhkan model target untuk memproses satu token. Model target kemudian memverifikasi semua token yang disarankan secara paralel. Jika model target menyetujui draf tersebut, ia menerima seluruh urutan dalam satu forward pass dan bahkan menghasilkan satu token tambahan. Ini berarti aplikasi dapat mengeluarkan urutan draf penuh ditambah satu token dalam waktu yang biasanya dibutuhkan untuk menghasilkan satu token saja.
MTP drafters ini ideal untuk:
- Responsivitas tinggi, mengurangi latensi untuk aplikasi chat waktu nyata, aplikasi suara, dan alur kerja agen.
- Pengembangan lokal super cepat, menjalankan model 26B MoE dan 31B Dense di komputer pribadi atau GPU konsumen.
- Performa perangkat edge yang lebih baik, memaksimalkan utilitas model E2B dan E4B, sekaligus menghemat daya baterai.
- Kualitas output tidak berkurang, karena model Gemma 4 utama tetap melakukan verifikasi akhir, hasilnya sama cepat dengan penalaran dan akurasi kelas atas.
Untuk mencapai kecepatan dan akurasi ini, drafter MTP memiliki peningkatan arsitektur. Model draf memanfaatkan aktivasi model target dan berbagi cache KV-nya, sehingga tidak perlu menghitung ulang konteks. Untuk model edge E2B dan E4B, teknik clustering yang efisien diterapkan dalam embedder untuk mempercepat generasi.
Arsitektur dan Fitur Canggih
Gemma 4 mewarisi banyak komponen arsitektur dari versi Gemma sebelumnya dan model terbuka lainnya. Kombinasi ini dirancang agar sangat kompatibel di berbagai pustaka dan perangkat, mendukung konteks panjang, serta alur kerja agen, dan optimal untuk kuantisasi.
Beberapa karakteristik arsitektur utama Gemma 4 meliputi:
- Lapisan Perhatian Lokal dan Global yang Silih Berganti: Model ini menggabungkan lapisan perhatian sliding-window lokal dengan lapisan perhatian konteks penuh global. Model dense yang lebih kecil menggunakan jendela sliding-window 512 token, sementara model yang lebih besar menggunakan 1024 token. Lapisan global attention selalu menjadi lapisan terakhir.
- Konfigurasi RoPE Ganda: RoPE standar untuk lapisan sliding-window dan pruned RoPE untuk lapisan global, memungkinkan konteks lebih panjang.
- Per-Layer Embeddings (PLE): Fitur khas pada model Gemma 4 yang lebih kecil (E2B dan E4B). Ini adalah tabel embedding kedua yang menyalurkan sinyal residual berdimensi lebih rendah ke setiap lapisan decoder. Embedding ini disimpan dalam memori flash, bukan VRAM.
- Shared KV Cache: Optimalisasi efisiensi yang mengurangi komputasi dan memori selama inferensi. Lapisan terakhir model menggunakan kembali tensor K dan V dari lapisan non-shared terakhir dengan jenis perhatian yang sama.
- Vision Encoder: Berbasis Vision Transformer (ViT), menggunakan posisi 2D yang dipelajari dan RoPE multidimensi. Ini mempertahankan rasio aspek asli gambar dan dapat mengkodekan gambar ke beberapa token budget berbeda (70, 140, 280, 560, 1120).
- Audio Encoder: Hanya tersedia pada model E2B dan E4B. Menggunakan conformer gaya USM yang mengubah input audio mentah menjadi embedding yang dapat diproses oleh Gemma 4.
Kemampuan Multimodal yang Luas
Gemma 4 mendukung kemampuan multimodal yang komprehensif. Semua model dapat memproses input video dan gambar dengan resolusi variabel. Model E2B dan E4B juga memiliki input audio bawaan untuk pengenalan dan pemahaman ucapan.
Kemampuan multimodal Gemma 4 mencakup:
- Penalaran dan Alur Kerja Agen: Dukungan asli untuk pemanggilan fungsi, output JSON terstruktur, dan instruksi sistem bawaan.
- Pembuatan Kode: Mendukung kode offline berkualitas tinggi, mengubah workstation Anda menjadi asisten kode AI lokal.
- Pemahaman Gambar dan Video: Unggul dalam tugas visual seperti OCR dan pemahaman diagram. Model yang lebih kecil (E2B, E4B) bahkan dapat memahami video dengan audio.
- Pemahaman Audio: E2B dan E4B dapat menjawab pertanyaan tentang ucapan dalam audio dan melakukan transkripsi.
Penerapan Fleksibel di Berbagai Platform
Gemma 4 dirancang untuk dapat di-deploy di mana saja. Model-model ini dioptimalkan untuk berbagai perangkat keras, mulai dari jutaan perangkat Android hingga GPU laptop, workstation pengembang, dan akselerator.
Anda dapat mulai bereksperimen dengan Gemma 4 melalui:
- Google AI Studio (31B dan 26B MoE) atau Google AI Edge Gallery (E4B dan E2B).
- Android Studio (AICore Developer Preview, ML Kit GenAI Prompt API).
- Tools populer seperti Hugging Face (Transformers, TRL, Transformers.js, Candle), LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM, NeMo, LM Studio, Unsloth, SGLang, Cactus, Baseten, Docker, MaxText, Tunix, Keras.
- Mengunduh model weights dari Hugging Face, Kaggle, atau Ollama.
Untuk fine-tuning, Gemma 4 mendukung platform seperti Google Colab, Vertex AI, atau bahkan GPU gaming pribadi Anda.
Hasil Benchmark
Model Gemma 4 menunjukkan kinerja luar biasa di berbagai benchmark, mulai dari penalaran dan pengkodean hingga visi dan tugas konteks panjang.
Berikut adalah beberapa hasil benchmark rinci untuk model yang telah di-instruction-tuned:
| Benchmark | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (no think) |
|---|---|---|---|---|---|
| Penalaran & Pengetahuan | |||||
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 no tools | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| Tau2 (average over 3) | 76.9% | 68.2% | 42.2% | 24.5% | 16.2% |
| BigBench Extra Hard | 74.4% | 64.8% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 76.6% | 67.4% | 70.7% |
| Pengodean | |||||
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 | 110 |
| HLE no tools | 19.5% | 8.7% | - | - | - |
| HLE with search | 26.5% | 17.2% | - | - | - |
| Visi | |||||
| MMMU Pro | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5 (edit distance) | 0.131 | 0.149 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM | 61.3% | 58.1% | 28.7% | 23.5% | - |
| Audio | |||||
| CoVoST | - | - | 35.54 | 33.47 | - |
| FLEURS (lower is better) | - | - | 0.08 | 0.09 | - |
| Konteks Panjang | |||||
| MRCR v2 8 needle 128k (average) | 66.4% | 44.1% | 25.4% | 19.1% | 13.5% |
Fine-tuning Model Gemma 4
Gemma 4 sangat cocok untuk fine-tuning menggunakan berbagai tools dan platform.
- Fine-tuning dengan TRL: TRL telah ditingkatkan dengan dukungan respons tool multimodal, memungkinkan model menerima gambar dari tool selama pelatihan. Contohnya adalah skrip pelatihan di simulator CARLA, di mana model Gemma 4 belajar mengemudi dan menghindari pejalan kaki.
- Fine-tuning dengan TRL di Vertex AI: Tersedia contoh untuk memperluas kemampuan function calling, sambil membekukan tower visi dan audio. Ini mencakup pembangunan Docker container kustom dengan Transformers dan TRL terbaru di Google Cloud.
- Fine-tuning dengan Unsloth Studio: Untuk fine-tuning dalam antarmuka pengguna, Unsloth Studio dapat dijalankan secara lokal atau di Google Colab.
bash# install unsloth studio on MacOS, Linux, WSL curl -fsSL https://unsloth.ai/install.sh | sh # install unsloth studio on Windows irm https://unsloth.ai/install.ps1 | iex # launch unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Search for for a Gemma 4 model like google/gemma-4-E2B-it
Dengan semua inovasi ini, Gemma 4 menunjukkan komitmen Google untuk memberdayakan pengembang dengan tool AI yang tangguh, efisien, dan sangat fleksibel.
Referensi
- https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
- https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
- https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4
- https://huggingface.co/blog/gemma4
