Di dunia AI yang serba cepat ini, sistem Agentic AI sangat bergantung pada kemampuan model untuk memanggil berbagai alat secara andal. Ini berarti model harus bisa memilih fungsi yang tepat, memformat argumen dengan benar, dan mengintegrasikan hasilnya ke dalam alur kerja multi-langkah. Model-model besar seperti ChatGPT, Claude, dan Gemini memang bagus dalam hal ini. Namun, mereka punya kelemahan, seperti biaya tinggi, latensi, dan kebutuhan hardware yang besar. Ini membuat mereka kurang praktis untuk banyak penerapan di dunia nyata.
Untungnya, Small Language Models (SLM) mulai mengisi kekosongan ini. Beberapa opsi open-weight yang ringkas kini menawarkan dukungan tool-calling kelas satu. Kamu tidak perlu punya pusat data besar untuk menjalankannya. Artikel ini akan membahas 5 Small Language Models for Agentic Tool Calling yang patut kamu pertimbangkan.
Mengapa Small Language Models Penting untuk Agentic Tool Calling?
Model AI agentic butuh kemampuan untuk berinteraksi dengan dunia luar. Mereka harus bisa menggunakan alat atau tool untuk melakukan tugas spesifik, seperti mencari informasi, menjalankan kalkulasi, atau mengontrol perangkat. Bayangkan agen AI yang perlu memesan tiket pesawat. Dia harus bisa memanggil fungsi untuk mencari jadwal penerbangan, membandingkan harga, dan akhirnya memesan.
SLM menjadi pilihan menarik karena:
- Efisiensi Biaya: Penggunaan API model besar bisa mahal. SLM mengurangi biaya operasional.
- Latensi Rendah: Model kecil cenderung lebih cepat dalam menghasilkan respons, penting untuk aplikasi real-time.
- Kebutuhan Hardware Minimal: Banyak SLM bisa berjalan di perangkat dengan sumber daya terbatas, bahkan di perangkat edge seperti smartphone atau IoT.
- Privasi Data: Untuk kasus penggunaan tertentu, menjalankan model secara on-device bisa meningkatkan privasi data.
Berikut adalah 5 SLM yang mendukung tool-calling secara terstruktur dan hadir dalam paket open-weight yang ringkas.
Daftar 5 Small Language Models untuk Agentic Tool Calling
| Model | Parameter | Dukungan Tool Calling | Lisensi | Fitur Utama |
|---|---|---|---|---|
| SmolLM3-3B | 3B | JSON/XML (function_call), Python (tool_code) | Open (weights, datasets, code) | Penalaran dual-mode, 6 bahasa, konteks panjang, GQA, NoPE, dilatih pada 11.2T token, APO, ideal untuk perangkat edge atau VRAM rendah. |
| Qwen3-4B-Instruct-2507 | 4B | Melalui tokenizer.apply_chat_template | Tidak disebutkan | Peningkatan instruksi, penalaran logis, pemahaman teks, matematika, sains, coding, cakupan pengetahuan long-tail multi-bahasa. GQA, efisien untuk konteks sangat panjang, dioptimalkan untuk respons cepat, latensi rendah. |
| Phi-3-mini-4k-instruct | 3.8B | Tidak dijelaskan secara spesifik, namun memiliki penalaran yang kuat | MIT | Ringan, dilatih dengan data berkualitas tinggi, SFT, DPO, dapat berjalan di perangkat (smartphone), setara GPT-3.5 dalam benchmark, jendela konteks 4K, cocok untuk lingkungan terbatas memori/komputasi, tugas penalaran kuat (matematika, logika). |
| Gemma-4-E2B-it | Efektif, <1.5GB memori (kuantisasi) | Native function calling | Apache 2.0 | Arsitektur hybrid attention, PLE untuk efisiensi memori, dioptimalkan untuk on-device (mobile, IoT), multimodal (teks, gambar, audio, video). |
| Mistral-7B-Instruct-v0.3 | 7B | Extended vocabulary (tool_code, tool_result) | Tidak disebutkan | Vocabulary 32,768 token, mendukung tokenizer v3, GQA, SWA, performa instruksi terbaik di grup, standar industri, tersedia luas. |
1. SmolLM3-3B
SmolLM3-3B adalah model bahasa dengan 3 miliar parameter yang dirancang untuk mendorong batas kemampuan model kecil. Model ini mendukung penalaran dual-mode, 6 bahasa, dan konteks panjang. Arsitekturnya adalah decoder-only transformer yang menggunakan Grouped Query Attention (GQA) dan No Positional Embeddings (NoPE) dengan rasio 3:1. Model ini dilatih pada 11.2 triliun token yang mencakup data web, kode, matematika, dan penalaran.
Setelah pelatihan awal, SmolLM3 menjalani fase tengah pelatihan dengan 140 miliar token penalaran. Lalu ada supervised fine-tuning dan alignment melalui Anchored Preference Optimization (APO). SmolLM3 mendukung dua antarmuka tool-calling yang berbeda: JSON/XML blobs melalui function_call dan panggilan fungsi gaya Python melalui tool_code. Ini membuatnya sangat fleksibel untuk agentic pipelines dan sistem RAG. Dengan rilis sepenuhnya terbuka, termasuk weights, datasets, dan kode pelatihan, SmolLM3 adalah pilihan bagus untuk chatbot, sistem RAG, dan asisten kode pada hardware terbatas seperti perangkat edge atau mesin dengan VRAM rendah.
Contoh dasar penggunaan function_call atau tool_code untuk instruksi:
python# Contoh ilustrasi (bukan kode asli dari referensi) if model_output.has_tool_call(): tool_name = model_output.tool_call.name args = model_output.tool_call.arguments # Eksekusi tool_name dengan args result = execute_tool(tool_name, args) # Masukkan result kembali ke model
2. Qwen3-4B-Instruct-2507
Qwen3-4B-Instruct-2507 adalah versi terbaru dari mode non-thinking Qwen3-4B. Model ini punya peningkatan signifikan dalam kemampuan umum, termasuk instruction following, penalaran logis, pemahaman teks, matematika, sains, coding, dan penggunaan alat. Model ini juga punya peningkatan substansial dalam cakupan pengetahuan long-tail di berbagai bahasa.
Varian Instruct dan Thinking sama-sama punya 4 miliar parameter total (3.6B tidak termasuk embeddings) yang dibangun di 36 lapisan transformer. Mereka menggunakan GQA dengan 32 query heads dan 8 key/value heads, memungkinkan manajemen memori yang efisien untuk konteks yang sangat panjang. Varian non-thinking ini dioptimalkan untuk kasus penggunaan respons cepat dan langsung, seperti memberikan jawaban singkat tanpa jejak chain-of-thought eksplisit. Ini membuatnya cocok untuk chatbot, dukungan pelanggan, dan agen tool-calling yang mengutamakan latensi rendah. Qwen3 unggul dalam kemampuan tool-calling. Alibaba menyarankan penggunaan tokenizer.apply_chat_template, yang mengemas template dan parser tool-calling secara internal, sehingga mengurangi kompleksitas coding, dengan dukungan untuk berkas konfigurasi server MCP.
3. Phi-3-mini-4k-instruct
Phi-3-mini-4k-instruct adalah model terbuka ringan berparameter 3.8 miliar yang canggih. Model ini dilatih dengan dataset Phi-3 yang mencakup data sintetis dan data web publik yang difilter, dengan fokus pada properti berkualitas tinggi dan padat penalaran. Proses post-training model ini mencakup Supervised Fine-Tuning (SFT) dan Direct Preference Optimization (DPO) untuk instruction following dan keamanan.
Model ini adalah salah satu andalan Microsoft yang dikenal sebagai "small but smart". Phi-3-mini jadi sorotan saat diluncurkan karena kemampuannya berjalan di perangkat, termasuk smartphone, sambil menyaingi GPT-3.5 dalam benchmark kemampuan. Model ini memang lebih tua dari model lain dalam daftar ini dan terbatas pada jendela konteks 4K. Namun, lisensi MIT membuatnya menjadi salah satu opsi dengan lisensi paling permisif yang tersedia. Penalaran umumnya yang kuat menjadikannya dasar populer untuk fine-tuning dalam aplikasi komersial. Model ini utamanya ditujukan untuk lingkungan dengan keterbatasan memori dan komputasi, skenario yang terikat latensi, dan tugas yang membutuhkan penalaran kuat, terutama matematika dan logika.
4. Gemma-4-E2B-it
Gemma-4-E2B-it adalah bagian dari keluarga Gemma 4 dari Google DeepMind. Model ini menampilkan mekanisme hybrid attention, yakni local sliding window attention dengan full global attention. Desain ini memberikan kecepatan pemrosesan dan jejak memori rendah seperti model ringan, tanpa mengorbankan kesadaran mendalam yang dibutuhkan untuk tugas konteks panjang yang kompleks.
Huruf "E" dalam E2B berarti parameter "effective", dimungkinkan oleh inovasi arsitektural utama yang disebut Parallelized Low-Rank Embedding (PLE). PLE menambahkan conditioning vector khusus di setiap lapisan decoder. Ini adalah mekanisme yang memungkinkan E2B berjalan di bawah 1.5 GB memori dengan kuantisasi dan tetap menghasilkan output yang berharga. Model ini mendukung panggilan fungsi native, memungkinkan alur kerja agentic. Model ini juga dioptimalkan untuk on-device deployment pada perangkat mobile dan IoT, mampu menangani masukan teks, gambar, audio, dan video. Dirilis di bawah Apache 2.0 (sebuah perubahan dari lisensi kustom yang lebih ketat pada generasi Gemma sebelumnya), Gemma 4 E2B adalah opsi menarik bagi para pengembang yang membangun aplikasi agentic multimodal yang berjalan sepenuhnya di edge.
5. Mistral-7B-Instruct-v0.3
Mistral-7B-Instruct-v0.3 adalah versi fine-tuned instruksi dari Mistral-7B-v0.3. Model ini memperkenalkan tiga perubahan utama dibanding v0.2: vocabulary yang diperluas menjadi 32,768 token, dukungan untuk tokenizer v3, dan dukungan untuk function calling. Sebagai model terbesar dalam daftar ini dengan 7 miliar parameter, Mistral-7B-Instruct-v0.3 menawarkan performa instruction-following umum terbaik dari kelompok ini. Model ini telah menjadi workhorse standar industri, tersedia luas melalui Ollama, vLLM, dan sebagian besar platform inference.
Model ini menggunakan Grouped-Query Attention untuk inference yang lebih cepat dan Sliding Window Attention (SWA) untuk menangani urutan panjang secara efisien. Dukungan function calling dimungkinkan melalui vocabulary yang diperluas, termasuk tool_code dan tool_result.
Kode contoh implementasi function calling mungkin terlihat seperti ini:
json{ "tool_code": "get_weather_forecast", "parameters": { "location": "Jakarta", "days": 3 } }
Atau dalam respons model:
json{ "tool_result": "Cuaca di Jakarta untuk 3 hari ke depan cerah dengan suhu rata-rata 30C." }
Kesimpulan
Lima model yang dibahas di sini, SmolLM3-3B, Qwen3-4B-Instruct-2507, Phi-3-mini-4k-instruct, Gemma-4-E2B-it, dan Mistral-7B-Instruct-v0.3, memiliki arsitektur, jumlah parameter, jendela konteks, dan tanggal rilis yang bervariasi. Namun, mereka semua punya satu kesamaan penting: mereka mendukung structured tool calling dalam paket open-weight yang ringkas.
Dari SmolLM3 yang transparan dari Hugging Face hingga Gemma 4 E2B multimodal yang dioptimalkan untuk edge dari Google DeepMind, pilihan ini menunjukkan bahwa model agentic yang mumpuni tidak lagi membutuhkan infrastruktur besar dan model frontier untuk disebarkan. Prioritas Anda bisa jadi inference on-device, penanganan konteks panjang, cakupan multibahasa, atau lisensi yang paling permisif sekalipun. Salah satu model dalam daftar ini pasti layak untuk kamu coba.
Ingat, ini bukan satu-satunya small language models dengan kemampuan tool-calling. Namun, mereka mewakili model yang penulis miliki pengalaman langsung, dan nyaman untuk disertakan berdasarkan hasil yang didapatkan.
Referensi
https://www.kdnuggets.com/5-small-language-models-for-agentic-tool-calling
