5 Small Language Models Pilihan untuk Panggilan Tool Agentik

Dunia AI agentik saat ini sangat bergantung pada kemampuan model untuk memanggil tool dengan andal. Ini berarti model harus bisa memilih fungsi yang tepat, memformat argumen dengan benar, dan mengintegrasikan hasil ke dalam alur kerja yang kompleks. Model-model besar seperti ChatGPT, Claude, dan Gemini memang handal dalam hal ini. Namun, mereka datang dengan berbagai kendala, mulai dari biaya tinggi, latensi, hingga kebutuhan perangkat keras yang besar. Hal ini sering membuat mereka kurang praktis untuk banyak penerapan di dunia nyata.

Untungnya, Small Language Models for Agentic Tool Calling telah berkembang pesat dan berhasil mengatasi kesenjangan ini. Beberapa pilihan model ringan dan open-weight kini menawarkan dukungan panggilan tool kelas satu tanpa perlu pusat data yang besar untuk menjalankannya. Mereka menghadirkan efisiensi dan fleksibilitas yang dibutuhkan pengembang.

Berikut ini adalah 5 Small Language Models yang patut kamu lirik untuk proyek AI agentikmu. Semua tautan model mengarah ke model yang di-host di Hugging Face untuk kemudahan dan konsistensi.

1. SmolLM3-3B

SmolLM3 adalah model bahasa berparameter 3B yang dirancang untuk mendorong batas kemampuan model kecil. Model ini mendukung penalaran dua mode, enam bahasa, dan konteks panjang. SmolLM3 adalah decoder-only transformer yang menggunakan Grouped Query Attention (GQA) dan No Positional Embeddings (NoPE) dengan rasio 3:1.

Pelatihan awal model ini menggunakan 11.2 triliun token dengan kurikulum bertahap yang mencakup data web, kode, matematika, dan penalaran. Pasca-pelatihan, SmolLM3 menjalani fase tengah pelatihan dengan 140 miliar token penalaran, diikuti oleh Supervised Fine-Tuning (SFT) dan penyelarasan melalui Anchored Preference Optimization (APO).

Model ini mendukung dua antarmuka panggilan tool yang berbeda. Kamu bisa menggunakan JSON/XML blobs atau panggilan fungsi gaya Python, membuatnya sangat fleksibel untuk pipeline agentic dan sistem RAG. Berikut contohnya:

json
{
  "function_name": "get_current_time",
  "arguments": {
    "timezone": "Asia/Jakarta"
  }
}

python
tool_call(
    function_name="send_notification",
    args={"user_id": "123", "message": "Pesan baru masuk!"}
)

Sebagai rilis yang sepenuhnya open, termasuk bobot, dataset, dan kode pelatihan, SmolLM3 ideal untuk chatbot, sistem RAG, dan asisten kode pada perangkat keras terbatas seperti perangkat edge atau mesin dengan VRAM rendah.

2. Qwen3-4B-Instruct-2507

Qwen3-4B-Instruct-2507 adalah versi terbaru dari mode non-thinking Qwen3-4B. Model ini menghadirkan peningkatan signifikan dalam kemampuan umum, termasuk kemampuan mengikuti instruksi, penalaran logis, pemahaman teks, matematika, sains, koding, dan penggunaan tool. Qwen3 juga memiliki cakupan pengetahuan long-tail yang substansial di berbagai bahasa.

Baik varian Instruct maupun Thinking memiliki total 4 miliar parameter (3.6B tidak termasuk embeddings). Model ini dibangun di atas 36 lapisan transformer dan menggunakan GQA dengan 32 query heads dan 8 key/value heads. Desain ini memungkinkan manajemen memori yang efisien untuk konteks yang sangat panjang. Varian non-thinking ini dioptimalkan untuk kasus penggunaan langsung dan respons cepat, seperti memberikan jawaban ringkas tanpa jejak chain-of-thought eksplisit. Ini membuatnya sangat cocok untuk chatbot, dukungan pelanggan, dan agen panggilan tool yang mengutamakan latensi rendah.

Qwen3 unggul dalam kemampuan panggilan tool. Alibaba merekomendasikan penggunaan ModelScope library, yang merangkum templat dan parser panggilan tool secara internal, mengurangi kompleksitas koding, dengan dukungan untuk file konfigurasi server MCP.

3. Phi-3-mini-4k-instruct

Phi-3-mini-4k-instruct adalah model open canggih dengan 3.8B parameter yang ringan. Model ini dilatih dengan dataset Phi-3 yang mencakup data sintetis dan data web publik yang difilter, dengan fokus pada properti berkualitas tinggi dan padat penalaran. Model ini menjalani proses pasca-pelatihan yang menggabungkan Supervised Fine-Tuning (SFT) dan Direct Preference Optimization (DPO) untuk mengikuti instruksi dan keamanan.

Sebagai model "kecil tapi pintar" andalan Microsoft, Phi-3-mini sangat menonjol saat diluncurkan karena kemampuannya berjalan di perangkat, termasuk smartphone, sambil menyaingi GPT-3.5 dalam benchmark kemampuan. Model ini utamanya ditujukan untuk lingkungan yang terbatas memori dan komputasi, skenario terikat latensi, dan tugas yang membutuhkan penalaran kuat, terutama matematika dan logika.

Meskipun lebih tua dari model lain dalam daftar ini dan terbatas pada context window 4K, lisensi MIT membuatnya menjadi salah satu pilihan dengan lisensi paling permisif. Kemampuan penalaran umumnya yang kuat telah menjadikannya dasar populer untuk fine-tuning dalam aplikasi komersial.

4. Gemma-4-E2B-it

Gemma-4-E2B-it adalah bagian dari keluarga Gemma 4 Google DeepMind. Model ini menampilkan mekanisme perhatian hibrida, yaitu local sliding window attention dengan full global attention. Desain ini memberikan kecepatan pemrosesan dan jejak memori rendah dari model ringan tanpa mengorbankan kesadaran mendalam yang diperlukan untuk tugas konteks panjang yang kompleks.

Huruf "E" dalam E2B berarti parameter "efektif". Ini dimungkinkan oleh inovasi arsitektur kunci yang disebut Parallel Embedding Layer (PLE), yang menambahkan vektor pengondisian khusus di setiap lapisan decoder. Mekanisme inilah yang memungkinkan E2B berjalan di bawah 1.5 GB memori dengan kuantisasi dan tetap menghasilkan output yang berharga.

Model ini mendukung native function calling, memungkinkan alur kerja agentik. Gemma-4-E2B-it dioptimalkan untuk penerapan di perangkat mobile dan IoT, serta mampu menangani input teks, gambar, audio, dan video. Dirilis di bawah Apache 2.0 (perubahan dari lisensi kustom yang lebih ketat pada generasi Gemma sebelumnya), Gemma 4 E2B adalah pilihan menarik bagi pengembang yang membangun aplikasi agentik multimodal yang berjalan sepenuhnya di edge.

5. Mistral-7B-Instruct-v0.3

Mistral-7B-Instruct-v0.3 adalah versi instruct fine-tuned dari Mistral-7B-v0.3. Model ini memperkenalkan tiga perubahan kunci dibandingkan v0.2: kosakata diperluas menjadi 32,768 token, dukungan untuk tokenizer v3, dan dukungan untuk function calling.

Model ini menggunakan grouped-query attention untuk inferensi yang lebih cepat dan Sliding Window Attention (SWA) untuk menangani urutan panjang secara efisien. Dukungan function calling dimungkinkan melalui kosakata yang diperluas, termasuk token tool_code. Sebagai model terbesar dalam daftar ini dengan 7B parameter, Mistral-7B-Instruct-v0.3 menawarkan performa instruction-following umum terbaik di grup ini. Model ini telah menjadi workhorse standar industri, tersedia secara luas melalui Ollama, vLLM, dan sebagian besar platform inferensi.

Perbandingan Singkat 5 Model SLM untuk Panggilan Tool Agentik

Model	Parameter	Panggilan Tool	Fitur Utama	Lisensi	Kasus Penggunaan Ideal
SmolLM3-3B	3B	JSON/XML, Python-style	Penalaran dua mode, 6 bahasa, konteks panjang, GQA, NoPE, fully open.	Open	Chatbots, RAG, asisten kode di hardware terbatas (edge, VRAM rendah)
Qwen3-4B-Instruct-2507	4B	ModelScope Library	Peningkatan umum (instruksi, penalaran, koding), pengetahuan long-tail, GQA, efisien untuk konteks panjang, respons cepat.		Chatbots, dukungan pelanggan, agen tool latensi rendah
Phi-3-mini-4k-instruct	3.8B		Berjalan di perangkat (smartphone), menyaingi GPT-3.5 (benchmark), penalaran kuat (matematika, logika), SFT, DPO.	MIT License	Lingkungan terbatas memori/komputasi, skenario terikat latensi, tugas penalaran kuat
Gemma-4-E2B-it	E2B	Native function calling	Perhatian hibrida, Parallel Embedding Layer (PLE), memori rendah (<1.5GB dengan kuantisasi), multimodal (teks, gambar, audio, video).	Apache 2.0	Aplikasi agentik multimodal di edge, perangkat mobile dan IoT
Mistral-7B-Instruct-v0.3	7B	Mendukung function calling (tool_code tokens)	Kosakata diperluas (32,768), tokenizer v3, GQA, Sliding Window Attention (SWA), performa instruction-following terbaik di grup.		Workhorse standar industri, performa instruction-following umum

Catatan: Lisensi untuk Qwen3 dan Mistral tidak disebutkan spesifik di referensi, kecuali statusnya sebagai "open-weight". Parameter "E2B" pada Gemma adalah "effective parameters", bukan hitungan parameter mentah.

Kesimpulan

Kelima model yang dibahas di sini, yaitu SmolLM3-3B, Qwen3-4B-Instruct-2507, Phi-3-mini-4k-instruct, Gemma-4-E2B-it, dan Mistral-7B-Instruct-v0.3, memiliki arsitektur, jumlah parameter, context window, dan tanggal rilis yang bervariasi. Namun, mereka semua berbagi satu kesamaan penting: dukungan panggilan tool terstruktur dalam paket yang ringkas dan open-weight.

Mulai dari SmolLM3 yang transparan sepenuhnya dari Hugging Face hingga Gemma 4 E2B yang dioptimalkan untuk edge dan multimodal dari Google DeepMind, pilihan ini menunjukkan bahwa model agentik yang mumpuni tidak lagi memerlukan infrastruktur besar dan model frontier untuk diterapkan. Baik prioritasmu adalah inferensi di perangkat, penanganan konteks panjang, cakupan multibahasa, atau lisensi yang paling permisif, pasti ada model dalam daftar ini yang layak untuk dieksplorasi.

Perlu diingat, ini bukan satu-satunya small language models dengan kemampuan panggilan tool. Namun, kelima model ini mewakili pilihan yang penulis rasakan nyaman untuk direkomendasikan berdasarkan pengalaman langsung dan hasil pengujian.