Di dunia grafis komputer, menciptakan aset 3D berkualitas tinggi dari gambar 2D seringkali menjadi tantangan besar. Namun, sebuah terobosan baru bernama Pixal3D siap mengubah cara kita melihat proses ini. Dikembangkan oleh peneliti dari Tsinghua University, Tencent ARC Lab, dan Victoria University of Wellington, Pixal3D adalah sebuah proyek yang memungkinkan generasi aset 3D dengan fidelity tinggi hanya dari satu gambar.
Teknologi ini bahkan telah diterima di SIGGRAPH 2026, menunjukkan pengakuannya di komunitas grafis global.
Bagaimana Pixal3D Bekerja?
Berbeda dengan metode sebelumnya yang hanya memasukkan fitur gambar secara longgar melalui perhatian, Pixal3D memiliki pendekatan yang lebih langsung dan presisi. Pixal3D secara eksplisit mengangkat fitur piksel ke dalam ruang 3D melalui proyeksi balik atau back-projection. Pendekatan ini membangun korespondensi langsung antara piksel 2D dan representasi 3D.
Hasilnya? Fidelity yang mendekati tingkat rekonstruksi, lengkap dengan geometri detail dan tekstur PBR (Physically Based Rendering) yang realistis. Ini berarti model 3D yang dihasilkan tidak hanya terlihat bagus, tetapi juga berperilaku secara fisik dalam lingkungan virtual.
Mencoba Pixal3D: Tanpa Instalasi atau Lokal
Bagi Anda yang penasaran ingin mencoba Pixal3D, ada beberapa cara untuk melakukannya:
Demo Online Interaktif
Cara termudah adalah melalui demo Hugging Face Gradio. Anda bisa langsung mencoba Pixal3D di browser tanpa perlu instalasi apa pun. Demo web Gradio ini memungkinkan Anda menghasilkan mesh 3D dari gambar secara interaktif.
Instalasi Lokal untuk Pengguna Lanjut
Jika Anda ingin menjalankannya secara lokal, pertama-tama ikuti panduan instalasi threestudio untuk menyiapkan lingkungan dasar. Kemudian, Anda perlu menginstal PyTorch3D dengan arsitektur CUDA dan jumlah build worker yang sesuai untuk mesin Anda. Perlu diingat, arsitektur yang digunakan untuk demo Hugging Face Spaces (H-series GPU) mungkin tidak kompatibel dengan arsitektur lain.
Membuat Mesh GLB dari Satu Gambar
Setelah lingkungan Anda siap, Anda bisa menghasilkan mesh GLB dari satu gambar menggunakan perintah berikut:
bashpython launch.py --config configs/pixal3d-512.yaml --gpu 0 --test
Mode Hemat VRAM
Untuk mengurangi penggunaan VRAM, Anda bisa mengaktifkan mode low-VRAM. Mode ini memuat model sesuai permintaan:
bashpython launch.py --config configs/pixal3d-512.yaml --gpu 0 --test --low-vram
Secara default, resolusi pipeline adalah 512 di mode low-VRAM. Anda dapat mengubahnya ke 1024 dengan menambahkan --resolution 1024. Sementara itu, di demo web Gradio, resolusi frontend default secara otomatis beralih ke 1024 dalam mode low-VRAM (1536 jika tidak), tetapi dapat diubah secara manual di UI.
Jika Anda menggunakan PyTorch 2.0+ dan torch.backends.cuda.sdpa_util.is_available() mengembalikan nilai True, Anda bisa menggunakan backend SDPA bawaan PyTorch dengan menambahkan +model.use_sdpa=true pada perintah Anda.
Melatih Model Pixal3D Sendiri
Bagi para pengembang, tersedia codebase pelatihan lengkap untuk mereproduksi Pixal3D dari awal. Proses pelatihannya dibagi menjadi tiga tahap cascade, dengan setiap tahap secara progresif meningkatkan resolusi. Anda perlu menyiapkan data O-Voxel yang sejajar view dan gambar kondisi yang sudah dirender dengan mengikuti instruksi data toolkit. Setiap langkah resolusi yang lebih tinggi memerlukan pembaruan checkpoint sebelumnya dalam konfigurasi JSON.
Komunitas dan Fondasi
Proyek Pixal3D sangat bergantung pada threestudio. Para pengembang mengucapkan terima kasih kepada penulis threestudio atas karya luar biasa mereka dalam generasi 3D yang skalabel, yang menjadi fondasi codebase dan arsitektur model Pixal3D. Beberapa repo lain yang juga berkontribusi antara lain diff-gaussian-rasterization, vision_language_models, omnidata, dan eg3d.
Komunitas juga telah aktif berkontribusi, contohnya dengan integrasi Pixal3D ke ComfyUI, lengkap dengan panduan deployment untuk Windows, WSL, dan lainnya.
Pixal3D dirilis di bawah Lisensi MIT. Komponen pihak ketiga yang disertakan dalam proyek ini tetap dilisensikan di bawah ketentuan asli masing-masing.
Referensi
https://github.com/TencentARC/Pixal3D
