Stable Audio 3: Evolusi Berikutnya dalam Generasi Audio AI

Dunia generasi audio AI terus berkembang, dan Stable Audio 3: Next Generation AI Audio Generation hadir sebagai inovasi terbaru dari Stability AI. Platform ini dirancang untuk inferensi dan fine-tuning, dibangun berdasarkan pelajaran dari model Stable Audio sebelumnya. Jika kamu berencana melakukan riset dasar atau bekerja dengan model Stable Audio lama, repository mereka yang asli masih menjadi tempat yang tepat. Namun, untuk pengalaman yang lebih fokus dan efisien, Stable Audio 3 adalah jawabannya.

Stable Audio 3 menawarkan berbagai checkpoint dasar (yang belum post-trained), autoencoder SAME yang sama, serta varian yang telah dioptimalkan. Platform ini mendukung penggunaan CPU-only melalui CoreML untuk Diffusion Transformer dan TFLite untuk SAME-S decoder. Kamu bisa menghasilkan audio berdurasi menit dalam hitungan milidetik, menjadikannya alat yang kuat untuk berbagai kebutuhan kreasi.

Fitur Unggulan Stable Audio 3

Stable Audio 3 dibekali dengan beberapa kemampuan utama yang membuatnya menonjol, memungkinkan kamu berkreasi lebih bebas tanpa hambatan teknis.

Generasi Audio Multimode

Platform ini mampu menangani berbagai jenis generasi audio secara fleksibel:

Text-to-audio: Cukup masukkan teks, dan Stable Audio 3 akan mengubahnya menjadi audio.
Audio-to-audio editing: Edit rekaman yang sudah ada dengan prompt untuk mengubah gaya atau mood-nya.
Inpainting/continuation: Regenerasi area spesifik pada file audio sambil mempertahankan bagian lainnya, atau perpanjang klip audio yang sudah ada.

Efisiensi Sumber Daya

Stable Audio 3 dirancang agar efisien. Ini mampu menangani generasi berbagai sekuens tanpa membuang waktu inferensi dan VRAM pada latent yang tidak terpakai. Sebagai gambaran, berikut adalah penggunaan VRAM pada perangkat H200:

Konfigurasi	VRAM Dialokasikan (H200, unchunked)	VRAM Dialokasikan (Chunked)
Generasi audio 120 detik	6.49 GB	~5.14 GB

Penggunaan chunked decoding dapat mengurangi beban VRAM secara signifikan, seperti yang terlihat pada tabel di atas.

Stylization Fleksibel

Fitur Stylization memungkinkan kamu mengadaptasi model apa pun ke gaya target. Ini dapat ditumpuk dan disesuaikan saat runtime, memberikan kontrol kreatif yang mendalam atas hasil audionya.

Backend Inferensi Beragam

Stable Audio 3 mendukung berbagai backend inferensi, sehingga kamu dapat memilih yang paling sesuai dengan setup perangkat kerasmu:

Backend Inferensi	Platform	Catatan
CPU (Small)	CPU-only
CUDA/TensorRT	NVIDIA GPU	Untuk performa tinggi
Apple Silicon	CoreML
Lainnya	Segera hadir

Semantic-Acoustic Music Encoder (SAME)

Encoder ini, atau Semantic-Acoustic Music Encoder (SAME), beroperasi dalam stereo pada 44.1 kHz dengan latent 256-dimensi. SAME dioptimalkan untuk generative tractability dan rekonstruksi audio berkualitas tinggi, menjadi komponen krusial dalam kemampuan Stable Audio 3.

Panduan Instalasi Stable Audio 3

Untuk mulai menggunakan Stable Audio 3, kamu bisa menginstal versi minimal agar lebih ringan:

bash
pip install stable-audio-3[minimal]

Jika kamu memerlukan PyTorch yang di-build dengan versi CUDA yang berbeda dari CUDA 12.6, kamu perlu menginstal torch dan torchaudio secara manual terlebih dahulu. Pastikan versinya sama dengan yang digunakan oleh Stable Audio 3, lalu sinkronkan tanpa menginstalnya kembali. Contohnya:

bash
pip install torch==2.7.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu121
pip install stable-audio-3[cuda] --no-deps

Periksa situs PyTorch untuk memastikan varian CUDA yang kamu inginkan tersedia.

Persyaratan untuk Stable Audio 3 Medium

Versi Stable Audio 3 Medium membutuhkan flash-attn untuk performa cepat tanpa kompilasi. Cara termudah mendapatkannya adalah dari community repo PyTorch. Cari wheel yang cocok dengan versi CUDA, PyTorch, dan Python-mu, lalu instal langsung. Contohnya:

bash
pip install flash_attn-2.5.9+cu126torch2.7.1-cp310-cp310-linux_x86_64.whl

Pastikan nama file sesuai dengan lingkunganmu. Jika tidak ada pre-built wheel yang cocok, kamu bisa build dari source. Instal ninja terlebih dahulu untuk mempercepat kompilasi C++, lalu atur variabel lingkungan untuk machine kamu:

bash
export TORCH_CUDA_ARCH_LIST="8.6" # Atur sesuai compute capability GPU kamu, contoh: 8.6 untuk RTX3080/RTX4090/L40S
export MAX_JOBS=8 # Jumlah proses kompilasi paralel, 4-8 sudah umum
pip install -e '.[dev]' --no-deps # Instal/update dependensi

Mulai Berkreasi dengan Stable Audio 3

Stable Audio 3 menyediakan antarmuka web Gradio dan command line interface (CLI) untuk memudahkan penggunaan.

Antarmuka Web Gradio

Untuk meluncurkan antarmuka web lokal, jalankan perintah ini:

bash
python -m stable_audio_3.ui

Ini akan memulai antarmuka web lokal dengan tautan yang bisa dibagikan. Untuk memuat checkpoint LoRA, kamu bisa mengaturnya di UI, misalnya: /path/to/lora.safetensors.

Mode Inferensi via Python

Stable Audio 3 mendukung beberapa mode inferensi yang dapat kamu gunakan langsung dari skrip Python:

Generasi audio dari teks:

python
stable_audio_3.generate_to_audio("a jazz track", output_file="jazz_track.wav")

Edit rekaman yang sudah ada:

python
stable_audio_3.edit_audio(input_file="music.wav", prompt="turn this into a rock song", output_file="rock_version.wav")

Regenerasi wilayah spesifik atau continuation:
```
python
stable_audio_3.inpaint_audio(input_file="music.wav", mask_start=5, mask_end=10, prompt="add a drum solo", output_file="music_with_solo.wav")
```
Untuk meregenerasi beberapa wilayah dalam satu pass, teruskan daftar ke kedua parameter mask. Untuk memperpanjang klip audio (continuation), atur mask_start ke panjang file sumber dan pilih target_audio_len yang lebih panjang.
Penggunaan autoencoder secara langsung:
```
python
latents = stable_audio_3.encode_audio(input_file="music.wav")
audio = stable_audio_3.decode_latents(latents)
```
Fungsi ini juga mendukung encoding batch, pemrosesan chunked, dan pre-encoding dataset untuk pelatihan LoRA.

Menggunakan Command Line Interface (CLI)

CLI Stable Audio 3 juga tersedia untuk menjalankan generasi tanpa perlu menulis kode Python:

Generasi audio dari prompt teks:

bash
stable-audio-3 generate "a jazz track" --output-file jazz_cli.wav

Restyle rekaman yang sudah ada:

bash
stable-audio-3 restyle music.wav "a rock song" --output-file rock_cli.wav

Regenerasi wilayah tertentu:

bash
stable-audio-3 inpaint music.wav --mask-start 5 --mask-end 10 "a drum solo" --output-file solo_cli.wav

Perpanjang klip audio:

bash
stable-audio-3 extend music.wav --target-len 60 --output-file extended_cli.wav

Kamu bisa melihat daftar lengkap flag yang tersedia dalam dokumentasi.

Skalabilitas dan Komunitas

Stable Audio 3 dirancang untuk dapat diskalakan, mulai dari laptop pribadi hingga server GPU. Jika kamu mencari dukungan dan diskusi, bergabunglah dengan server Discord Harmonai. Tim riset di sana mengadakan office hour mingguan untuk membahas segala hal tentang AI audio dan musik.

Bagi power user pelatihan LoRA, Dadabots menawarkan alat eksperimental seperti orkestrasi dan pemantauan LoRA agentic. Kamu bisa mencarinya jika pelatihan LoRA di repo ini belum cukup.

Tips Pemecahan Masalah

Jika kamu mengalami masalah dengan flash-attention, kemungkinan ada masalah instalasi. Kamu bisa memverifikasinya dengan menjalankan import flash_attn. Jika terjadi error, flash-attn tidak terinstal dengan benar. Cek kembali bagian instalasi.

Untuk menginstal dependensi dev, gunakan: