Enam Bulan Terakhir di Dunia LLM: Dari Agen Coding Super Canggih hingga Model yang Bisa Jalan di Laptop

Enam Bulan Terakhir di Dunia LLM: Dari Agen Coding Super Canggih hingga Model yang Bisa Jalan di Laptop

By Reggi, 19 May 2026

Pernahkah Anda bertanya-tanya seberapa cepat dunia Large Language Model (LLM) bergerak? Di PyCon US 2026, sebuah sesi lightning talk berjudul "The last six months in LLMs in five minutes" mencoba meringkas perkembangan pesat ini. Enam bulan terakhir, yang sering disebut sebagai "periode liburan LLM," memang membawa banyak perubahan signifikan. Mari kita selami lebih dalam apa saja yang terjadi di balik layar inovasi LLM.

November: Bulan Krusial untuk LLM Coding

Bulan November menjadi titik balik penting, terutama untuk pengembangan LLM coding. Dalam rentang waktu singkat itu, predikat model "terbaik" berpindah tangan hingga lima kali di antara tiga penyedia besar. Sebagai ilustrasi, tes unik pelican on a bicycle digunakan untuk menunjukkan perbedaan kemampuan model. Tes ini dipilih karena menggambar pelikan itu sulit, menggambar sepeda itu sulit, dan tidak ada laboratorium AI yang akan melatih model khusus untuk tugas konyol seperti itu.

Pada awal November, Claude Sonnet 4.5 yang dirilis bulan September menjadi model unggulan. Model ini berhasil menggambar pelikan. Tak lama kemudian, Gemini 3 mengambil alih posisi tersebut, sebelum Anthropic kembali merebutnya dengan Opus 4.5. Simon Willison, pembicara di PyCon, menilai Gemini 3 menghasilkan gambar pelikan terbaik dari batch awal, tetapi Opus 4.5 memegang mahkota model terbaik selama beberapa bulan berikutnya.

Namun, kabar terbesar dari November adalah lonjakan kualitas agen coding. Sepanjang tahun 2025, OpenAI dan Anthropic telah banyak melakukan "red team" exercises. Tujuannya adalah meningkatkan kualitas kode yang dihasilkan model mereka, terutama saat dipasangkan dengan agen seperti Codex dan Claude Code. Hasilnya terlihat jelas di November: agen coding yang sebelumnya "sering berfungsi" kini menjadi "sebagian besar berfungsi." Mereka melintasi batas kualitas sehingga bisa menjadi alat harian untuk pekerjaan nyata, tanpa perlu membuang waktu memperbaiki kesalahan konyol.

Di penghujung November, terjadi pula commit pertama pada repositori yang saat itu tidak dikenal bernama "Warelay," oleh seseorang bernama Pete. Ini adalah awal dari sesuatu yang besar.

Liburan Akhir Tahun: Eksperimen Liar dan Kelahiran Claw

Selama periode liburan dari Desember hingga Januari, banyak pengembang memanfaatkan waktu luang untuk mencoba model dan agen coding baru ini. Mereka menemukan banyak hal menarik. Simon Willison bahkan mengaku mengalami "psikosis LLM" singkat. Ia memulai proyek-proyek ambisius untuk melihat sejauh mana batas kemampuan model-model baru.

Salah satu proyeknya adalah implementasi JavaScript berorientasi vibe-coded di Python, sebuah porting longgar dari micro-javascript. Anda bisa mencobanya di browser melalui Pyodide playground. Demo tersebut menunjukkan kode JavaScript yang berjalan menggunakan micro-javascript, di Python, dalam Pyodide, di WebAssembly, di JavaScript, dan terakhir, di browser! Konsepnya memang keren, tetapi nyatanya, tidak ada yang benar-benar membutuhkan implementasi JavaScript di Python yang buggy, lambat, tidak aman, dan setengah matang. Simon sendiri mengakui telah banyak memensiunkan proyek-proyek ambisius dari masa liburan tersebut.

Februari: Kedatangan Para Claw dan Pelikan yang Makin Canggih

Proyek Warelay yang dimulai di November, mengalami tiga kali rebrand pada Desember dan Januari. Pada Februari, proyek itu mendunia dengan nama finalnya: OpenClaw. Popularitasnya sungguh mencengangkan untuk proyek yang baru berusia kurang dari tiga bulan.

OpenClaw adalah "asisten AI pribadi." Model-model sejenis ini kemudian diberi nama generik Claws, seperti NanoClaw dan ZeroClaw. Di Silicon Valley, penjualan Mac Mini sempat melonjak karena banyak orang membelinya untuk menjalankan Claw mereka. Sebuah metafora menarik dari Jason Scott adalah bahwa Mac Mini adalah "akuarium" sempurna untuk Claw Anda, mirip hewan peliharaan digital baru. Simon Willison juga menyukai metafora Doc Ock dari Spider-Man 2 tahun 2004, di mana cakar Alfred Molina ditenagai AI dan aman selama chip penghambatnya tidak rusak.

Pada Februari pula, Gemini 3.1 Pro dirilis. Model ini menghasilkan gambar pelikan yang luar biasa, lengkap dengan ikan di keranjangnya. Bahkan, Jeff Dean dari Google kemudian membagikan gambar pelikan animasi yang mengendarai sepeda, katak di sepeda roda satu, jerapah mengemudi mobil mini, dan banyak lagi. Ini menunjukkan bahwa laboratorium AI mulai memperhatikan tes pelican on a bicycle tersebut.

Bulan Lalu: Model Open-Weight Mendominasi

Perkembangan di bulan terakhir juga tidak kalah seru. Seri model Mistral muncul sebagai model open weight paling mumpuni dari perusahaan AS. Sementara itu, laboratorium AI asal Tiongkok, GLM, merilis GLM-5.1. Ini adalah model open weight seberat 1.5TB yang sangat efektif, meskipun membutuhkan perangkat keras yang mumpuni untuk menjalankannya.

GLM-5.1 mampu menggambar pelikan yang sangat kompeten mengendarai sepeda, meskipun sepeda tersebut sedikit melengkung dan memantul. Seorang teman Simon menyarankan untuk mencoba tantangan North Virginia Opossum on an E-scooter. Hasilnya sangat baik dengan GLM-5.1, lengkap dengan tulisan "Cruising the commonwealth since dusk" yang menangkap vibe-nya dengan sempurna. Model lain bahkan tidak mendekati kemampuannya dalam tugas ini.

Model open weight menarik lainnya dari Tiongkok di bulan April berasal dari Qwen. Qwen-1.8B-Chat adalah model open weight seberat 20.9GB yang bisa berjalan di laptop. Ini menunjukkan bahwa tes pelican on a bicycle mulai melampaui batasnya sebagai benchmark yang berguna, karena model-model kecil pun sudah semakin canggih. Sebagai perbandingan, Simon menunjukkan lagi gambar pelikan Claude Sonnet 4.5 dari September.

Dua Tema Utama Enam Bulan Terakhir

Enam bulan terakhir ini menyoroti dua tema besar:

  1. Agen coding menjadi jauh lebih baik. Mereka kini bisa diandalkan untuk pekerjaan sehari-hari.
  2. Model yang tersedia di laptop, meskipun lebih lemah dari model frontier besar, mulai menunjukkan kinerja yang jauh melampaui ekspektasi.

Jika Anda ingin tetap up-to-date dengan perkembangan LLM yang cepat, Anda bisa berlangganan ringkasan email bulanan tentang perkembangan LLM terpenting dari Simon Willison di blognya.

Referensi

https://simonwillison.net/2026/May/19/5-minute-llms/


🔥 Sedang Ramai Dibaca