DramaBox oleh Resemble AI: Klona Suara dan Ekspresi TTS Tingkat Lanjut

Industri teknologi suara terus berkembang, dan inovasi terbaru datang dari Resemble AI dengan DramaBox by Resemble AI. Ini adalah model Text-to-Speech (TTS) yang sangat ekspresif, lengkap dengan fitur kloning suara, yang dibangun di atas basis audio LTX-2.3. Resemble AI telah menyempurnakan model ini sebagai IC-LoRA fine-tune, dan berterima kasih kepada tim Lightricks yang telah membuka akses ke model dasarnya.

Apa Itu DramaBox?

DramaBox adalah sistem TTS yang didorong oleh prompt. Artinya, kamu bisa mengontrol berbagai aspek output suara hanya dengan deskripsi teks. Mulai dari identitas pembicara, emosi, gaya penyampaian, tawa, helaan napas, jeda, hingga transisi. Untuk fitur kloning suara, kamu cukup memberikan referensi suara berdurasi 10 detik. Ini akan mengklona timbre suara target dengan presisi.

Model ini otomatis akan terunduh dari repositori model HuggingFace pada penggunaan pertama. Dalam pengujian mereka, DramaBox menunjukkan performa yang cepat, dengan waktu generasi sekitar 2.5 detik per output saat menggunakan server yang hangat dengan GPU H100.

Tips Menggunakan DramaBox untuk Hasil Terbaik

Untuk mendapatkan hasil suara yang optimal dari DramaBox, ada beberapa panduan yang perlu kamu perhatikan:

Pencocokan Profil: Sesuaikan gender atau usia dalam deskripsi pembicara dengan referensi suara yang kamu gunakan.
Segmentasi Dialog: Bagi dialog yang panjang menjadi beberapa segmen. Berikan arahan aksi di antara segmen tersebut untuk menjaga alur.
Akhiri Prompt dengan Tepat: Pastikan kamu mengakhiri prompt pada tanda kutip penutup terakhir, tanpa ada deskripsi tambahan di bagian akhir.

Resemble Detect: Jaminan Keaslian Audio

Setiap output audio dari DramaBox secara otomatis ditambahkan watermark dengan Resemble Detect. Ini adalah neural watermark yang tidak terlihat oleh telinga manusia, namun mampu bertahan dari kompresi MP3, pengeditan audio, serta berbagai manipulasi umum. Resemble Detect memiliki akurasi deteksi hampir 100%.

Jika kamu perlu menonaktifkan fitur watermark ini untuk tujuan debugging, kamu bisa mengatur variabel lingkungan RES_DISABLE_WATERMARK menjadi 1.

Kustomisasi Lebih Lanjut: Melatih LoRA di Atas DramaBox

Salah satu fitur menarik dari DramaBox adalah kemampuannya untuk dijadikan dasar fine-tuning LoRA (Low-Rank Adaptation) milikmu sendiri. Ini berarti kamu tidak perlu memulai dari model LTX-2.3 mentah. Kemampuan ini sangat berguna jika kamu ingin menambahkan karakter speaker, aksen bahasa, atau gaya tertentu di atas kemampuan ekspresif DramaBox yang sudah ada.

Berikut adalah langkah-langkah untuk melatih LoRA di atas DramaBox:

Siapkan File Indeks Anda Preprocessor DramaBox mendukung empat format file indeks untuk mempersiapkan dataset training Anda. Jika Anda ingin melampirkan prompt gaya adegan (bagian yang menjadi kondisi model saat inferensi), tambahkan ke transkrip dalam format yang sama seperti yang digunakan saat model dilatih.

Format File Indeks	Struktur Data	Catatan
`text.txt`	`prompt::teks` ATAU `teks`	Mendukung input dengan atau tanpa pembungkus prompt.
`samples.csv`	`file_path	speaker_id
`manifest.tsv`	`file_path\tspeaker_id\ttext_with_prompt`	Format paling sederhana, satu baris per sampel.
`prompts.jsonl`	`file_path\tprompt\ttext`	Digunakan untuk data sintetis yang didorong prompt.
`transcripts.jsonl`	`file_path\ttext`	Digunakan untuk data teks-saja tanpa prompt.

Setelah file indeks Anda siap, jalankan preprocessor yang relevan.

Konfigurasi dan Peluncuran Training Setelah output preproses Anda siap, atur TRAINING_YAML ke lokasi output preproses Anda. Kemudian, atur MODEL_PATH ke file DramaBox dan luncurkan proses training menggunakan HuggingFace accelerate. Setiap flag yang Anda berikan melalui CLI akan menimpa pengaturan di file YAML.

Berikut adalah contoh sederhana bagaimana Anda bisa menyiapkan dan meluncurkan training:
```
bash
# Contoh penggunaan preprocessor (asumsi ada script preprocess.py)
python preprocess.py --input_format samples.csv --output_dir preprocessed_data --input_file your_dataset.csv

# Contoh pengaturan dan peluncuran training dengan HuggingFace Accelerate
# Pastikan TRAINING_YAML dan MODEL_PATH sudah disesuaikan
accelerate launch train.py \
    --config_file your_training_config.yaml \
    --model_path /path/to/DramaBox_files \
    --output_dir /path/to/your_lora_output
```
Pelatih akan melampirkan LoRA baru ke cabang audio di atas checkpoint DramaBox. LoRA ini akan menargetkan 6 matriks qkv dan 6 matriks linear_proj di 48 blok transformer, menghasilkan total 288 pasangan LoRA. Konfigurasi default adalah rank 128, alpha 128, dan dropout 0.1, dengan jadwal learning rate kosinus dari 1e-4, 500 langkah warmup selama 10.000 langkah.
Memantau Proses Training Untuk memantau kemajuan training Anda, atur TRAINING_YAML.callbacks.synthesis.enabled menjadi true. Dengan begitu, script synthesize.py akan dijalankan pada setiap langkah penyimpanan untuk menghasilkan satu file WAV per entri speaker. Ini memungkinkan Anda untuk mendengarkan dan membandingkan hasil selama proses training berlangsung.

Inferensi dengan LoRA yang Telah Dilatih

Saat melakukan inferensi dengan LoRA yang telah Anda latih, selalu muat LoRA pada saat inferensi, jangan menggabungkannya sebelumnya (pre-merging). Dalam pengujian Resemble AI, checkpoint yang digabungkan sebelumnya telah menghasilkan output yang terdegradasi.

Lisensi dan Pengakuan

DramaBox adalah hasil fine-tune dari LTX-2.3 oleh Resemble AI. Model ini didistribusikan di bawah LTX-2 Community License Agreement. Anda bisa melihat detail lisensinya di LICENSE.txt. Sekali lagi, terima kasih banyak kepada Lightricks yang telah merilis model dasar ini.