Ilmuwan MIT Persembahkan MathNet, Dataset Raksasa Soal Olimpiade Matematika dari 17 Bahasa

MIT Scientists Collect Thousands of Math Olympiad Problems from 17 Languages adalah berita besar di dunia AI dan pendidikan. Bayangkan, sebuah tim ilmuwan dari Massachusetts Institute of Technology (MIT), King Abdullah University of Science and Technology (KAUST), dan perusahaan HUMAIN baru saja meluncurkan platform bernama MathNet. Ini bukan sekadar koleksi soal biasa, melainkan dataset tingkat olimpiade yang luar biasa lengkap, berisi lebih dari 30.000 soal dan solusi matematika dari 47 negara, serta mencakup 17 bahasa berbeda.

MathNet dirancang untuk semua orang, baik peneliti AI yang ingin menguji batas penalaran matematika maupun siswa di seluruh dunia yang berlatih untuk Olimpiade Matematika Internasional (IMO). Proyek ini dipresentasikan di Konferensi Internasional tentang Representasi Pembelajaran (ICLR) di Brasil pada akhir April lalu. Kamu bisa mengaksesnya di math-net.ai.

Mengapa MathNet Itu Penting?

MathNet berbeda dari dataset matematika sebelumnya yang umumnya hanya berasal dari kompetisi di Amerika Serikat dan Tiongkok. Dataset baru ini menjangkau puluhan negara di enam benua, menampilkan soal dan solusi berbasis teks serta gambar, dan mencakup empat dekade kompetisi matematika. Tujuannya jelas, yaitu menangkap seluruh spektrum perspektif matematika dan tradisi pemecahan masalah yang ada di komunitas matematika global, bukan hanya dari yang paling sering terlihat.

Shaden Alshammari, mahasiswa PhD MIT dan penulis utama makalah ini, menjelaskan bahwa setiap negara yang berpartisipasi di IMO biasanya membawa buklet berisi soal-soal paling orisinal dan terbaru mereka. Buklet ini dibagikan di antara delegasi lalu menghilang begitu saja. Sebelum MathNet, tidak ada upaya sistematis untuk mengumpulkan, merapikan, dan menyediakannya untuk umum. Ia berharap platform ini bisa menjadi wadah terpusat dengan soal dan solusi berkualitas tinggi bagi siswa yang ingin belajar.

Solusi di MathNet juga punya ciri khas. Berbeda dengan benchmark matematika sebelumnya yang mungkin hanya memberikan jawaban satu baris, solusi di MathNet ini berbentuk bukti panjang atau long-form proofs. Ini berarti solusi tersebut ditulis oleh para ahli, melewati proses tinjauan sejawat, dan sering kali terdiri dari beberapa halaman, bahkan menjelaskan berbagai pendekatan untuk masalah yang sama.

Perjalanan di Balik Pengumpulan Data MathNet

Membangun MathNet bukan pekerjaan mudah. Tim harus melacak 1.595 volume PDF, totalnya lebih dari 25.000 halaman, mencakup dokumen digital dan hasil pindaian dari puluhan tahun lalu dalam belasan bahasa. Sebagian besar arsip ini datang dari sumber yang tidak terduga, yaitu Navid Safaei, seorang tokoh senior di komunitas IMO yang juga salah satu co-author. Ia telah mengumpulkan dan memindai buklet-buklet ini secara manual sejak tahun 2006, membangun arsip pribadi yang kini menjadi tulang punggung dataset tersebut.

Tidak seperti dataset matematika lainnya yang sering mengandalkan forum komunitas seperti Art of Problem Solving (AoPS), MathNet secara eksklusif mengambil semua soal dari buklet kompetisi nasional resmi. Ini menjamin kualitas tingkat ahli, konsistensi gaya, dan terhindar dari anotasi yang mungkin kurang rapi di koleksi crowd-sourced.

Teknologi Canggih untuk Ekstraksi dan Validasi

Mengambil pasangan soal dan solusi yang selaras dari koleksi dokumen matematika yang beragam ini jelas bukan hal sepele. Kadang, buklet memisahkan soal dan solusi, kadang menginterlakannya, dan skema penomoran serta konvensi penamaan bervariasi antarnegara, bahkan dalam satu dokumen. Oleh karena itu, tim merancang pipa LLM (Large Language Model) multi-tahap yang canggih.

Tahap 1, Parsing: Semua buklet diubah ke Markdown menggunakan nougat-ocr, sebuah framework parsing dokumen multibahasa yang dirancang untuk PDF digital maupun hasil pindaian. Proses ini mengidentifikasi segmen soal dan solusi, lalu mencatat penulis, petunjuk, catatan, berkas sumber, dan nomor halaman untuk tujuan provenance.
Tahap 2, Ekstraksi: Kemudian, math-parser mengekstrak soal dan solusi yang sesuai dalam format Markdown yang ramah LaTeX, bersama dengan buffer teks di sekitarnya untuk menangani kasus di mana konten membentang melintasi batas konteks.

Setiap pasangan yang diekstrak harus melewati tiga pemeriksaan independen sebelum disimpan:

Pengecekan Kesamaan Teks: Ini memastikan kemiripan teks antara ekstraksi dan output OCR asli. Tujuannya adalah memastikan LLM hanya melakukan perubahan format dan tidak mengintroduksi konten yang berhalusinasi.
Pengecekan Visual: GPT-4.1 membandingkan screenshot halaman dengan pasangan yang diekstrak untuk menangkap kesalahan OCR, asosiasi gambar yang tidak tepat, atau solusi yang tidak lengkap.
Tinjauan Manusia: Kasus dengan tingkat kepercayaan rendah ditinjau secara manual oleh para annotator. Sebuah pasangan baru akan disimpan jika ketiga mekanisme ini setuju.

MathNet juga menyertakan taksonomi gaya olimpiade yang terkurasi. Domain tingkat atas mencakup Geometri, Aljabar, Kombinatorika, Teori Bilangan, Analisis, dan Probabilitas & Statistik. Setiap soal memiliki jalur topik hierarkis, seperti Number Theory / Diophantine Equations / Pell's equation. Ini bisa dipakai untuk evaluasi berjenjang atau menyusun kurikulum.

MathNet dalam Angka

Berikut adalah ringkasan fitur utama MathNet:

Fitur MathNet	Detail
Jumlah Soal	Lebih dari 30.000
Jumlah Negara Asal	47
Jumlah Bahasa	17
Cakupan Waktu	Empat dekade kompetisi (sejak awal 2000-an)
Sumber Data	Buklet kompetisi nasional resmi, bukan forum komunitas
Jenis Solusi	Bukti panjang (long-form proofs), multi-halaman, oleh para ahli
Tujuan Utama	Evaluasi penalaran matematika AI, retrieval benchmarks, pelatihan siswa
Validasi	Tiga tahap (kesamaan teks, visual oleh GPT-4.1, tinjauan manusia)
Lisensi Data (default)	CC BY-NC-SA 4.0 (dengan tetap menghormati hak cipta asli negara/organisasi)

Manfaat dan Batasan MathNet

MathNet ditujukan untuk evaluasi penalaran tingkat olimpiade, evaluasi matematika multibahasa, matematika multimodal berbasis gambar, analisis berlapis topik, dan retrieval benchmarks untuk struktur matematika. Kumpulan solusi yang ditulis oleh para ahli menyediakan rewards padat untuk masalah dengan jawaban yang dapat diverifikasi. Pasangan kesamaan yang sadar matematika juga membuka dimensi baru, yaitu menghargai model untuk mengambil masalah yang secara struktural setara, yang merupakan sinyal yang alami dan dapat diverifikasi secara otomatis tanpa memerlukan jawaban closed-form.

Namun, ada batasan yang perlu diingat. Soal-soal olimpiade telah diindeks secara luas, jadi ada kemungkinan kebocoran data saat mengevaluasi model yang sudah dilatih sebelumnya. Tim juga menyebutkan bahwa ada preview publik sebelum rilis penuh, dan beberapa bidang yang diperkaya (seperti metadata topik) belum sepenuhnya diaudit manusia.

Misi Global dan Hak Cipta

Dengan dukungan Presiden IMO Gregor Dolinar, tim peneliti telah menghubungi para pemimpin semua negara peserta dan mendapatkan izin untuk membagikan dataset ini secara publik. Jika ada negara atau organisasi kompetisi yang mengklaim hak ciptanya sendiri, hak cipta tersebut tetap dipertahankan dan diutamakan. Untuk semua soal yang tidak ada klaim hak cipta eksplisit, dataset ini dirilis di bawah lisensi CC BY-NC-SA 4.0. Singkatnya, kamu bisa menggunakannya secara bebas, tinggal mengutip makalahnya, dan menghormati hak-hak eksplisit yang diklaim oleh tim nasional asli.

Proyek ini sebagian didanai oleh Schwarzman College of Computing Fellowship dan National Science Foundation. Sultan Albarakati, salah satu co-author, saat ini bertugas di dewan IMO, dan para peneliti juga sedang berupaya membagikan kumpulan data ini langsung kepada yayasan IMO. Ini menunjukkan komitmen kuat untuk mendukung komunitas matematika global.

MathNet bukan hanya koleksi data, melainkan jembatan yang menghubungkan komunitas matematika global dengan kemajuan AI, membuka peluang baru bagi penelitian dan pendidikan.

Referensi

Tags :