Voicebox: Studio Suara AI Lokal yang Multifungsi dan Multi-bahasa

Di dunia teknologi suara yang terus berkembang, muncullah pemain baru yang mengubah cara kita berinteraksi dengan AI suara. Perkenalkan Voicebox: A Multi-lingual Text-to-Speech Model, sebuah studio suara AI sumber terbuka yang beroperasi secara lokal di mesin Anda. Aplikasi ini menawarkan alternatif gratis untuk layanan seperti ElevenLabs dan WisprFlow, menggabungkan kemampuan input dan output suara dalam satu paket.

Apa itu Voicebox?

Voicebox adalah studio suara AI lokal-first yang berarti semua model, data suara, dan rekaman tetap berada di mesin Anda. Ini memastikan privasi lengkap. Anda dapat mengkloning suara hanya dari beberapa detik audio, lalu menghasilkan ucapan dalam 23 bahasa menggunakan tujuh mesin Text-to-Speech (TTS) berbeda. Aplikasi ini juga memungkinkan Anda mendikte ke bidang teks mana pun dengan hotkey global, serta memberikan suara pilihan Anda kepada agen AI yang kompatibel.

Voicebox mengambil peran yang biasanya dipegang oleh dua layanan cloud terpisah. ElevenLabs fokus pada output suara, sementara WisprFlow mengelola input. Voicebox menggabungkan keduanya, menjembataninya dengan LLM lokal untuk penyempurnaan dan persona per-profil, semuanya berjalan di komputer Anda.

Fitur Unggulan Voicebox

Voicebox menghadirkan berbagai fitur canggih yang meningkatkan kemampuan Anda dalam mengelola suara digital:

Kloning Suara Multi-Mesin dan Banyak Bahasa

Voicebox menyediakan tujuh mesin TTS, masing-masing dengan keunggulan tersendiri, yang dapat Anda gunakan sesuai kebutuhan. Aplikasi ini mendukung kloning suara zero-shot dari sampel referensi, dan menawarkan lebih dari 50 suara preset yang dikurasi melalui Kokoro serta Qwen CustomVoice. Anda juga dapat menghasilkan ucapan dalam 23 bahasa, mulai dari Inggris hingga Arab, Jepang, Hindi, dan Swahili.

Berikut adalah detail dari beberapa mesin TTS yang tersedia:

Mesin	Bahasa	Keunggulan
Qwen3-TTS	10	Kloning multibahasa berkualitas tinggi, instruksi pengiriman ("speak slowly", "whisper")
Qwen CustomVoice	10	9 suara preset yang dikurasi dengan kontrol pengiriman bahasa alami, tidak memerlukan audio referensi
LuxTTS	Inggris	Ringan (~1GB VRAM), output 48kHz, 150x realtime di CPU
Chatterbox Multilingual	23	Cakupan bahasa terluas, termasuk Arab, Denmark, Finlandia, Yunani, Ibrani, Hindi, Melayu, Norwegia, Polandia, Swahili, Swedia, Turki, dan lainnya
Chatterbox Turbo	Inggris	Model 350M cepat dengan tag emosi/suara paralinguistik
TADA	10	Model bahasa ucapan HumeAI, audio koheren lebih dari 700 detik, penjajaran ganda teks-akustik
Kokoro	8	50 suara preset yang dikurasi, model 82M kecil, inferensi CPU cepat

Perlu diingat, hanya Chatterbox Turbo yang menginterpretasikan tag paralinguistik seperti [laugh] atau [sigh]. Mesin lain akan membacanya secara harfiah sebagai teks. Anda dapat menggunakan tanda / di input teks untuk menyisipkan tag ekspresif seperti [chuckle], [gasp], atau [clear throat].

Efek Suara Post-Processing

Voicebox dilengkapi dengan delapan efek audio yang ditenagai oleh pustaka pedalboard dari Spotify. Anda dapat menerapkan efek ini setelah generasi suara, mempratinjaunya secara real-time, dan membuat preset yang dapat digunakan kembali. Efek-efek ini juga dapat ditetapkan sebagai default per-profil.

Berikut adalah daftar efek yang tersedia:

Efek	Deskripsi
Pitch Shift	Mengubah nada naik atau turun hingga 12 semitone
Reverb	Ukuran ruangan, redaman, campuran basah/kering yang dapat dikonfigurasi
Delay	Gema dengan waktu, umpan balik, dan campuran yang dapat disesuaikan
Chorus / Flanger	Penundaan yang dimodulasi untuk tekstur metalik atau mewah
Compressor	Kompresi rentang dinamis
Gain	Penyesuaian volume (-40 hingga +40 dB)
High-Pass Filter	Menghilangkan frekuensi rendah
Low-Pass Filter	Menghilangkan frekuensi tinggi

Aplikasi ini hadir dengan empat preset bawaan seperti Robotic, Radio, Echo Chamber, dan Deep Voice.

Input & Output Suara Agen AI

Voicebox mengelola kedua sisi loop I/O suara. Anda dapat menggunakan hotkey diktasi global untuk berbicara, dan transkrip akan langsung ditempelkan ke bidang teks yang aktif (didukung di macOS). Fitur ini juga menyertakan LLM opsional untuk membersihkan "ums", gagap, dan permulaan yang salah sebelum ditempel.

Untuk output suara agen AI, agen yang mendukung Model Context Protocol (MCP) seperti Claude Code atau Cursor dapat berbicara kepada Anda menggunakan suara yang telah Anda kloning, cukup dengan satu panggilan voicebox.speak. Voicebox menampilkan "pill" di layar untuk menunjukkan status perekaman, transkripsi, penyempurnaan, atau berbicara, baik untuk diktasi maupun saat agen berbicara.

jsx
// Dalam agen yang kompatibel dengan MCP:
await voicebox.speak({
  text: "Penyebaran telah selesai.",
  profile: "Morgan",
});

Manajemen Suara dan Cerita

Voicebox memungkinkan Anda membuat profil suara dari file audio atau merekam langsung di aplikasi. Anda dapat mengelola profil dengan deskripsi dan tag bahasa, serta mengimpor atau mengekspornya. Fitur Stories editor menyediakan lini masa multi-track untuk menyusun percakapan, podcast, atau narasi, dengan kemampuan drag-and-drop, pemotongan, dan pembagian audio.

Setiap generasi suara mendukung beberapa versi: Original (output TTS bersih), Effects versions (rantai efek berbeda), Takes (regenerasi dengan seed baru untuk variasi), Source tracking, dan Favorites.

Dukungan LLM Lokal & Privasi Penuh

Voicebox menawarkan privasi lengkap. Semua model, data suara, dan rekaman tetap berada di mesin Anda. Ini sangat penting untuk menjaga kerahasiaan. Voicebox menyertakan LLM Qwen3 lokal (0.6B / 1.7B / 4B) yang berbagi runtime dengan TTS dan STT. LLM ini mendukung fitur Persona Suara, di mana Anda dapat melampirkan kepribadian bebas ke profil suara mana pun. Ini memungkinkan Anda untuk Compose (menghasilkan baris dalam karakter) atau Speak in character (menulis ulang teks masukan melalui LLM persona sebelum TTS).

Performa dan Kompatibilitas Lintas Platform

Voicebox dibangun dengan Tauri (Rust) untuk performa asli, bukan Electron. Ini memastikan pengalaman pengguna yang lebih cepat dan responsif. Aplikasi ini berjalan di berbagai platform dengan dukungan GPU yang luas:

Platform	Backend	Catatan
macOS (Apple Silicon)	MLX (Metal)	4-5x lebih cepat melalui Neural Engine
Windows / Linux (NVIDIA)	PyTorch (CUDA)	Mengunduh biner CUDA secara otomatis dari dalam aplikasi
Linux (AMD)	PyTorch (ROCm)	Mengonfigurasi HSA_OVERRIDE_GFX_VERSION secara otomatis
Windows (GPU apa pun)	DirectML	Dukungan GPU Windows universal
Intel Arc	IPEX/XPU	Akselerasi GPU diskrit Intel
Apa pun	CPU	Berfungsi di mana saja, tetapi lebih lambat

Untuk fitur Speech-to-Text (STT), Voicebox menggunakan OpenAI Whisper (Base / Small / Medium / Large, serta Turbo yang sekitar 8x lebih cepat dari Whisper Large). STT ini berjalan di MLX (Apple Silicon) atau PyTorch (CUDA / ROCm / DirectML / CPU) tergantung platform Anda.

Integrasi API dan MCP

Voicebox menyediakan REST API untuk mengintegrasikan I/O suara ke dalam aplikasi dan agen Anda sendiri. Ini memungkinkan pengembang untuk memanfaatkan fungsionalitas Voicebox secara terprogram.

bash
# Menghasilkan ucapan
curl -X POST http://127.0.0.1:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "Halo dunia", "profile_id": "abc123", "language": "en"}'

# Output suara agen ,  aplikasi atau skrip apa pun dapat berbicara dengan suara yang dikloning
curl -X POST http://127.0.0.1:17493/speak \
  -H "Content-Type: application/json" \
  -H "X-Voicebox-Client-Id: skrip-saya" \
  -d '{"text": "Penyebaran telah selesai.", "profile": "Morgan"}'

# Mentranskripsikan file audio
curl -X POST http://127.0.0.1:17493/transcribe \
  -F "audio=@rekaman.wav" \
  -F "model=whisper-turbo"

Voicebox juga dilengkapi server Model Context Protocol (MCP) bawaan. Ini memungkinkan agen yang kompatibel dengan MCP (seperti Claude Code, Cursor, Windsurf, Cline, atau ekstensi VS Code MCP) untuk berbicara, mentranskripsi, dan menjelajahi rekaman serta profil suara. Pengikatan suara per-klien dapat dikelola di pengaturan Voicebox.

Melihat ke Masa Depan: Roadmap Voicebox

Pengembang Voicebox memiliki rencana ambisius untuk masa depan. Beberapa fitur yang ada di roadmap meliputi:

Windows / Linux auto-paste: Untuk paritas penempelan diktasi.
Perluasan mesin STT: Menambahkan Parakeet v3 dan Qwen3-ASR untuk cakupan bahasa yang lebih luas dan kualitas non-Inggris yang lebih baik.
Routing pipeline: Rantai sumber → transformasi → sink yang dapat dikonfigurasi.
Transkripsi streaming: WebSocket /transcribe/stream untuk transkripsi parsial saat Anda berbicara.
LLM pidato ujung-ke-ujung: Model seperti Moshi, GLM-4-Voice, Qwen2.5 Omni untuk suara-ke-suara tanpa teks perantara.
Desain suara: Membuat suara baru dari deskripsi teks.
Perekaman jangka panjang: Perekam dual-stream (mikrofon + audio sistem) dengan transformasi LLM ringkasan.
Sinks platform: Integrasi opt-in dengan Apple Notes, Obsidian, dan lainnya.
Arsitektur plugin: Memperluas dengan model, transformasi, dan sink kustom.
Pendamping seluler: Mengontrol Voicebox dari ponsel Anda.

Memulai dengan Voicebox

Anda bisa mengunduh Voicebox untuk macOS, Windows, atau Docker langsung dari situs web mereka. Pengguna Linux saat ini perlu membangun dari sumber. Jika Anda seorang pengembang, Voicebox menawarkan alur kerja yang mudah untuk memulai:

bash
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
just setup # membuat Python venv, menginstal semua dependensi
just dev   # memulai backend + aplikasi desktop

Pastikan Anda memiliki Bun, Rust, Python 3.11+, dan Xcode (di macOS) sebagai prasyarat.

Voicebox bukan hanya alat. Ini adalah ekosistem suara yang berjalan di mesin Anda, memberikan kekuatan kloning suara, sintesis multibahasa, diktasi, dan integrasi agen AI, semua dengan privasi penuh.