Baidu Luncurkan Unlimited OCR, Model 3B untuk Dokumen Panjang dengan KV-Cache Datar

Baidu Luncurkan Unlimited OCR, Model 3B untuk Dokumen Panjang dengan KV-Cache Datar

By Reggi, 25 Jun 2026

Baidu mengumumkan kehadiran model terbarunya yang menarik di dunia pemrosesan dokumen. Mereka merilis Unlimited OCR: A 3B Model for Long Document Parsing. Model ini dirancang khusus untuk menghadapi tantangan besar dalam menganalisis dokumen panjang secara efisien.

Mengenal Unlimited OCR Baidu

Bayangkan Anda memiliki tumpukan dokumen tebal, seperti laporan keuangan bertahun-tahun atau naskah penelitian yang sangat panjang. Mengubah semua teks dari format gambar atau PDF ke teks digital yang bisa diedit itu butuh kerja keras. Inilah peran dari Optical Character Recognition atau OCR.

Baidu kini menghadirkan Unlimited OCR, sebuah upaya untuk menyederhanakan proses ini, terutama untuk dokumen-dokumen yang ukurannya masif. Nama "Unlimited" di sini mengisyaratkan kemampuan model dalam menangani input data yang sangat panjang, tanpa terhambat batasan ukuran seperti kebanyakan sistem OCR konvensional.

Kekuatan Model 3B

Angka "3B" pada model ini mengacu pada 3 miliar parameter. Ini menunjukkan bahwa model tersebut memiliki kapasitas yang besar untuk belajar dan memahami pola-pola rumit dalam teks. Dengan lebih banyak parameter, model biasanya dapat memproses informasi yang lebih kompleks dan menghasilkan akurasi yang lebih tinggi dalam mengenali karakter serta struktur dokumen. Khususnya untuk tugas long document parsing, ukuran model ini menjadi faktor penting untuk menjaga konteks dan konsistensi informasi di sepanjang dokumen.

Mengatasi Tantangan Parsing Dokumen Panjang

Memproses dokumen yang sangat panjang menjadi tantangan tersendiri bagi model AI. Masalah utamanya seringkali terletak pada manajemen memori dan konteks. Model harus bisa mengingat informasi dari awal dokumen saat memproses bagian tengah atau akhir. Jika tidak, akurasi bisa menurun drastis.

Model tradisional kerap kesulitan mempertahankan konteks atau menghadapi batasan memori saat mencoba memproses seluruh dokumen sekaligus. Ini bisa mengakibatkan performa yang lambat, atau bahkan kegagalan total, ketika berhadapan dengan input yang melebihi kapasitas memori atau jendela konteksnya.

Inovasi KV-Cache Datar

Salah satu kunci di balik kemampuan Unlimited OCR Baidu adalah pendekatannya yang menjaga KV-cache tetap datar. Dalam arsitektur transformer, yang menjadi dasar banyak model AI modern, "KV-cache" adalah tempat model menyimpan representasi Key (K) dan Value (V) dari input yang sudah diproses. Ini membantu model untuk "mengingat" informasi sebelumnya dan memproses bagian selanjutnya dari input dengan lebih cepat.

Namun, semakin panjang inputnya, semakin besar pula KV-cache yang dibutuhkan, yang kemudian menguras memori secara signifikan. Dengan menjaga KV-cache tetap "datar", Baidu mengimplementasikan metode yang secara efisien mengelola ukuran cache ini. Ini artinya, mereka bisa memproses dokumen yang jauh lebih panjang tanpa kehabisan memori secara cepat atau menurunkan kinerja secara drastis. Pendekatan ini memungkinkan model untuk menangani seluruh dokumen, menjaga konteks dari awal hingga akhir, dan memungkinkan proses parsing yang lebih cepat.

Potensi Penggunaan

Dengan kemampuan unik ini, Unlimited OCR Baidu dapat membantu berbagai sektor. Misalnya, di bidang hukum, model ini bisa menganalisis kontrak atau putusan pengadilan yang sangat panjang. Di riset, ia bisa memproses jurnal ilmiah atau disertasi yang volumenya besar. Perusahaan dapat menggunakannya untuk meninjau arsip digital yang masif, meningkatkan efisiensi kerja yang sebelumnya memakan banyak waktu dan sumber daya.

Baidu dengan Unlimited OCR menawarkan alat yang berpotensi mengubah cara kita berinteraksi dengan data teks dalam skala besar. Model 3B ini, dengan inovasi dalam pengelolaan KV-cache, menjanjikan efisiensi dan akurasi yang lebih baik dalam memecahkan masalah dokumen panjang.

Referensi

https://www.marktechpost.com/2026/06/24/baidu-releases-unlimited-ocr-a-3b-model-that-keeps-the-kv-cache-flat-for-long-document-parsing/


🔥 Sedang Ramai Dibaca