MEMO: Framework Modular Baru untuk Pengetahuan LLM yang Dinamis

Model bahasa besar (LLM) yang kita kenal saat ini memiliki satu keterbatasan signifikan. Setelah proses pra-pelatihan selesai, pengetahuan mereka menjadi statis, beku pada titik waktu tersebut. Ini berarti LLM tidak dapat memperbarui informasinya seiring perubahan dunia. Bayangkan sebuah ensiklopedia yang tidak pernah diupdate, itulah tantangannya.

Meskipun ada beberapa metode untuk mengatasi hal ini, masing-masing memiliki kekurangan. Pelatihan ulang LLM secara penuh terlalu mahal untuk skala modern. Sementara itu, fine-tuning berisiko menghilangkan pengetahuan yang sudah ada, atau yang sering disebut sebagai catastrophic forgetting. Di sisi lain, Retrieval-Augmented Generation (RAG), yang populer karena mengambil dokumen saat inferensi, sering kesulitan jika jawabannya membutuhkan penalaran lintas dokumen atau peka terhadap kebisingan (noise) pada data yang diambil.

Sebuah tim peneliti dari National University of Singapore (NUS), MIT CSAIL, A*STAR, dan Singapore-MIT Alliance for Research and Technology (SMART) menghadirkan pendekatan baru bernama MEMO: Modular Framework for Dedicated Memory Model. Framework ini dirancang untuk memungkinkan LLM menginternalisasi pengetahuan baru tanpa mengubah parameter model utamanya.

Memisahkan Memori dari Penalaran

Inti dari MEMO adalah pemisahan peran antara memori dan penalaran. Framework ini memperkenalkan dua model yang bekerja sama:

MEMORY model: Ini adalah model bahasa kecil dan khusus. Tugas utamanya adalah menginternalisasi pengetahuan dari korpus target. Model ini dilatih agar menyimpan informasi secara parametrik.
EXECUTIVE model: Ini adalah LLM utama yang lebih besar. Bagian ini dibekukan, tidak ada perubahan pada parameternya. EXECUTIVE model hanya berinteraksi melalui antarmuka input-output standar, memperlakukannya sebagai kotak hitam. Ini berarti MEMO tidak memerlukan akses ke bobot atau output logits dari EXECUTIVE model.

Dalam uji coba, MEMORY model yang digunakan adalah Qwen2.5-14B-Instruct. Untuk EXECUTIVE model, peneliti menggunakan Qwen2.5-32B-Instruct atau Gemini-3-Flash, yang merupakan model closed-source dan proprietary.

Membangun Bank Pengetahuan: Pipeline Sintesis Data

Proses pelatihan dimulai dengan GENERATOR model, dalam eksperimen digunakan Qwen2.5-32B-Instruct. Pipeline ini mengubah korpus dokumen mentah menjadi Reflection QA Dataset. Dataset ini berisi pasangan pertanyaan-jawaban yang merepresentasikan pengetahuan korpus dalam berbagai variasi query.

Ada lima langkah penting dalam sintesis data ini:

Single-Document QA Generation: Mengekstraksi fakta secara langsung (yang secara eksplisit disebutkan) dan secara tidak langsung (informasi yang disimpulkan) per bagian dokumen.
QA Consolidation: Menggabungkan pasangan QA yang berbagi konteks umum (entitas, periode waktu, hubungan) menjadi pasangan multi-fact.
QA Rewriting: Memeriksa kemandirian setiap pasangan QA. Pasangan dengan kata ganti yang tidak jelas atau referensi implisit akan ditulis ulang menggunakan potongan sumber atau dibuang.
Inverse QA Generation: Menghasilkan pasangan QA di mana pertanyaan mengkodekan atribut dan hubungan entitas, sementara jawabannya mengungkapkan identitas entitas. Langkah ini menargetkan reverse query problem, di mana model yang dilatih pada "A adalah B" sering gagal menyimpulkan "B adalah A".
Multi-Document QA Generation: Ini adalah komponen paling krusial. GENERATOR model membangun pasangan QA yang mencakup beberapa dokumen. Ia mengidentifikasi dua jenis koneksi lintas dokumen: converging clues (beberapa dokumen tentang entitas yang sama) dan parallel properties (entitas berbeda yang berbagi atribut atau peran umum). Pengujian menunjukkan bahwa menghapus langkah ini menurunkan akurasi dari 24.00% menjadi 6.37% pada NarrativeQA. Langkah ini juga menjadi sumber dominan pasangan pelatihan dalam dataset akhir.

Setelah dataset siap, MEMORY model kemudian dilatih melalui supervised fine-tuning. Loss dihitung hanya pada token jawaban. Dokumen sumber tidak pernah disediakan saat inferensi, yang berarti model harus menjawab dari pengetahuan parametrik yang sudah diinternalisasi.

Cara MEMO Menjawab Pertanyaan: Protokol Inferensi Multi-Tahap

Pada saat inferensi, EXECUTIVE model meminta informasi dari MEMORY model melalui Structured Multi-Turn Interface dengan tiga tahap berurutan:

Entity Identification (Tahap 1): EXECUTIVE model menguraikan query menjadi sub-pertanyaan atomik. Setiap sub-pertanyaan menargetkan satu batasan identifikasi. MEMORY model menjawab setiap pertanyaan secara independen.
Entity Confirmation (Tahap 2): Menggunakan respons grounding dari tahap sebelumnya, EXECUTIVE model mengeluarkan sub-pertanyaan lanjutan yang ditargetkan. Ia secara berulang mempersempit entitas kandidat hingga salah satu dikonfirmasi atau anggaran tahap habis.
Fact Synthesis (Tahap 3): Berdasarkan entitas yang teridentifikasi, EXECUTIVE model meminta fakta pendukung dari MEMORY model. Kemudian, semua respons yang diambil disintesis menjadi jawaban akhir.

Respons dari MEMORY model berupa potongan bahasa alami yang ringkas. Panjang respons ini tidak bergantung pada ukuran korpus. Ini berarti biaya inferensi tidak akan meningkat seiring bertambahnya jumlah dokumen, berbeda dengan RAG di mana biaya inferensi bertambah seiring korpus.

Performa di Lapangan: Hasil Uji Coba MEMO

MEMO dievaluasi pada tiga benchmark:

BrowseComp-Plus (penelitian mendalam multi-hop).
NarrativeQA (pemahaman wacana atas buku dan naskah film).
MuSiQue (penalaran 2-4 hop atas paragraf Wikipedia).

Baselines yang digunakan antara lain BM25, NV-Embed-V2, HippoRAG2, dan Cartridges. Cartridges sendiri memerlukan akses white-box ke EXECUTIVE model dan hanya mencetak 0.00% pada BrowseComp-Plus serta 3.75% pada NarrativeQA.

Berikut adalah perbandingan performa MEMO dengan baseline utama:

Benchmark	Model	Executive Model	Akurasi (%)
NarrativeQA	MEMO	Gemini-3-Flash	53.58
NarrativeQA	HippoRAG2	Gemini-3-Flash	23.21
MuSiQue	MEMO	Gemini-3-Flash	84.80
MuSiQue	HippoRAG2	Gemini-3-Flash	57.00
BrowseComp-Plus	MEMO	Gemini-3-Flash	78.78
BrowseComp-Plus	HippoRAG2	Gemini-3-Flash	66.33
BrowseComp-Plus	MEMO	Qwen2.5-32B-Instruct	54.22
MuSiQue	MEMO	Qwen2.5-32B-Instruct	48.30

Perlu diperhatikan bahwa saat EXECUTIVE model dialihkan dari Qwen2.5-32B-Instruct ke Gemini-3-Flash, MEMO menunjukkan peningkatan performa signifikan, yaitu 12.45% pada NarrativeQA, 26.73% pada MuSiQue, dan 11.90% pada BrowseComp-Plus. Peningkatan ini terjadi tanpa melatih ulang MEMORY model, menunjukkan fleksibilitas MEMO.

Ketahanan dan Fleksibilitas MEMO

Tim peneliti juga menguji ketahanan MEMO terhadap berbagai kondisi:

Terhadap Dokumen Pengganggu (Distractor Documents): Saat dokumen pengganggu ditambahkan ke korpus, NV-Embed-V2 dan HippoRAG2 mengalami penurunan akurasi hingga 6.22% pada BrowseComp-Plus. Namun, akurasi MEMO pada benchmark yang sama hanya berubah sebesar +0.55%, ini berada dalam satu standar deviasi.
Konsistensi Lintas Keluarga MEMORY Model: Peneliti menguji tiga keluarga MEMORY model pada skala parameter serupa (Qwen2.5-1.5B-Instruct, Gemma3-1B-IT, dan LFM2.5-1.2B-Instruct). Performa secara keseluruhan konsisten di antara ketiganya, yang menunjukkan bahwa framework ini tidak sensitif terhadap lineage pretraining spesifik dari MEMORY model.

Update Pengetahuan Bertahap: Hemat Biaya dengan Merging Model

MEMO juga mendukung pembaruan pengetahuan secara inkremental melalui TIES merging (dengan ρ=0.3). Ketika korpus baru tiba, MEMORY model terpisah dilatih pada korpus tersebut secara independen. Task vector, atau perbedaan parameter dari model dasar, kemudian digabungkan dengan MEMORY model yang sudah ada di ruang parameter.

Pendekatan ini menghasilkan penghematan komputasi yang substansial:

Jumlah Korpus (K)	Mode Training	GPU-hours	Penghematan
2	Merging TIES	48	33%
2	Retraining Penuh	72	N/A
10	Merging TIES	240	5.5x
10	Retraining Penuh	1,320	N/A

Meskipun model MEMORY yang digabungkan memiliki akurasi yang sedikit lebih rendah dibandingkan pelatihan ulang penuh (misalnya, terpaut 11.04% dengan EXECUTIVE Qwen2.5-32B-Instruct dan 19.11% dengan Gemini-3-Flash pada NarrativeQA), performanya tetap lebih baik dari semua baseline RAG pada NarrativeQA.

Kesimpulan

MEMO menawarkan pendekatan yang kuat untuk mengatasi keterbatasan LLM yang statis. Dengan memisahkan memori dari penalaran, memungkinkan pembaruan pengetahuan yang efisien melalui fine-tuning pada MEMORY model khusus, dan memanfaatkan EXECUTIVE model sebagai kotak hitam, framework ini menghadirkan fleksibilitas dan ketahanan yang baru. Selain itu, biaya inferensi yang tetap dan kemampuan pembaruan inkremental menjadikan MEMO solusi yang menarik untuk aplikasi yang membutuhkan pengetahuan yang dinamis dan terkini.