Di dunia teknologi suara yang terus berkembang, muncullah pemain baru yang mengubah cara kita berinteraksi dengan AI suara. Perkenalkan Voicebox: A Multi-lingual Text-to-Speech Model, sebuah studio suara AI sumber terbuka yang beroperasi secara lokal di mesin Anda. Aplikasi ini menawarkan alternatif gratis untuk layanan seperti ElevenLabs dan WisprFlow, menggabungkan kemampuan input dan output suara dalam satu paket.
Apa itu Voicebox?
Voicebox adalah studio suara AI lokal-first yang berarti semua model, data suara, dan rekaman tetap berada di mesin Anda. Ini memastikan privasi lengkap. Anda dapat mengkloning suara hanya dari beberapa detik audio, lalu menghasilkan ucapan dalam 23 bahasa menggunakan tujuh mesin Text-to-Speech (TTS) berbeda. Aplikasi ini juga memungkinkan Anda mendikte ke bidang teks mana pun dengan hotkey global, serta memberikan suara pilihan Anda kepada agen AI yang kompatibel.
Voicebox mengambil peran yang biasanya dipegang oleh dua layanan cloud terpisah. ElevenLabs fokus pada output suara, sementara WisprFlow mengelola input. Voicebox menggabungkan keduanya, menjembataninya dengan LLM lokal untuk penyempurnaan dan persona per-profil, semuanya berjalan di komputer Anda.
Fitur Unggulan Voicebox
Voicebox menghadirkan berbagai fitur canggih yang meningkatkan kemampuan Anda dalam mengelola suara digital:
Kloning Suara Multi-Mesin dan Banyak Bahasa
Voicebox menyediakan tujuh mesin TTS, masing-masing dengan keunggulan tersendiri, yang dapat Anda gunakan sesuai kebutuhan. Aplikasi ini mendukung kloning suara zero-shot dari sampel referensi, dan menawarkan lebih dari 50 suara preset yang dikurasi melalui Kokoro serta Qwen CustomVoice. Anda juga dapat menghasilkan ucapan dalam 23 bahasa, mulai dari Inggris hingga Arab, Jepang, Hindi, dan Swahili.
Berikut adalah detail dari beberapa mesin TTS yang tersedia:
| Mesin | Bahasa | Keunggulan |
|---|---|---|
| Qwen3-TTS | 10 | Kloning multibahasa berkualitas tinggi, instruksi pengiriman ("speak slowly", "whisper") |
| Qwen CustomVoice | 10 | 9 suara preset yang dikurasi dengan kontrol pengiriman bahasa alami, tidak memerlukan audio referensi |
| LuxTTS | Inggris | Ringan (~1GB VRAM), output 48kHz, 150x realtime di CPU |
| Chatterbox Multilingual | 23 | Cakupan bahasa terluas, termasuk Arab, Denmark, Finlandia, Yunani, Ibrani, Hindi, Melayu, Norwegia, Polandia, Swahili, Swedia, Turki, dan lainnya |
| Chatterbox Turbo | Inggris | Model 350M cepat dengan tag emosi/suara paralinguistik |
| TADA | 10 | Model bahasa ucapan HumeAI, audio koheren lebih dari 700 detik, penjajaran ganda teks-akustik |
| Kokoro | 8 | 50 suara preset yang dikurasi, model 82M kecil, inferensi CPU cepat |
Perlu diingat, hanya Chatterbox Turbo yang menginterpretasikan tag paralinguistik seperti [laugh] atau [sigh]. Mesin lain akan membacanya secara harfiah sebagai teks. Anda dapat menggunakan tanda / di input teks untuk menyisipkan tag ekspresif seperti [chuckle], [gasp], atau [clear throat].
Efek Suara Post-Processing
Voicebox dilengkapi dengan delapan efek audio yang ditenagai oleh pustaka pedalboard dari Spotify. Anda dapat menerapkan efek ini setelah generasi suara, mempratinjaunya secara real-time, dan membuat preset yang dapat digunakan kembali. Efek-efek ini juga dapat ditetapkan sebagai default per-profil.
Berikut adalah daftar efek yang tersedia:
| Efek | Deskripsi |
|---|---|
| Pitch Shift | Mengubah nada naik atau turun hingga 12 semitone |
| Reverb | Ukuran ruangan, redaman, campuran basah/kering yang dapat dikonfigurasi |
| Delay | Gema dengan waktu, umpan balik, dan campuran yang dapat disesuaikan |
| Chorus / Flanger | Penundaan yang dimodulasi untuk tekstur metalik atau mewah |
| Compressor | Kompresi rentang dinamis |
| Gain | Penyesuaian volume (-40 hingga +40 dB) |
| High-Pass Filter | Menghilangkan frekuensi rendah |
| Low-Pass Filter | Menghilangkan frekuensi tinggi |
Aplikasi ini hadir dengan empat preset bawaan seperti Robotic, Radio, Echo Chamber, dan Deep Voice.
Input & Output Suara Agen AI
Voicebox mengelola kedua sisi loop I/O suara. Anda dapat menggunakan hotkey diktasi global untuk berbicara, dan transkrip akan langsung ditempelkan ke bidang teks yang aktif (didukung di macOS). Fitur ini juga menyertakan LLM opsional untuk membersihkan "ums", gagap, dan permulaan yang salah sebelum ditempel.
Untuk output suara agen AI, agen yang mendukung Model Context Protocol (MCP) seperti Claude Code atau Cursor dapat berbicara kepada Anda menggunakan suara yang telah Anda kloning, cukup dengan satu panggilan voicebox.speak. Voicebox menampilkan "pill" di layar untuk menunjukkan status perekaman, transkripsi, penyempurnaan, atau berbicara, baik untuk diktasi maupun saat agen berbicara.
jsx// Dalam agen yang kompatibel dengan MCP: await voicebox.speak({ text: "Penyebaran telah selesai.", profile: "Morgan", });
Manajemen Suara dan Cerita
Voicebox memungkinkan Anda membuat profil suara dari file audio atau merekam langsung di aplikasi. Anda dapat mengelola profil dengan deskripsi dan tag bahasa, serta mengimpor atau mengekspornya. Fitur Stories editor menyediakan lini masa multi-track untuk menyusun percakapan, podcast, atau narasi, dengan kemampuan drag-and-drop, pemotongan, dan pembagian audio.
Setiap generasi suara mendukung beberapa versi: Original (output TTS bersih), Effects versions (rantai efek berbeda), Takes (regenerasi dengan seed baru untuk variasi), Source tracking, dan Favorites.
Dukungan LLM Lokal & Privasi Penuh
Voicebox menawarkan privasi lengkap. Semua model, data suara, dan rekaman tetap berada di mesin Anda. Ini sangat penting untuk menjaga kerahasiaan. Voicebox menyertakan LLM Qwen3 lokal (0.6B / 1.7B / 4B) yang berbagi runtime dengan TTS dan STT. LLM ini mendukung fitur Persona Suara, di mana Anda dapat melampirkan kepribadian bebas ke profil suara mana pun. Ini memungkinkan Anda untuk Compose (menghasilkan baris dalam karakter) atau Speak in character (menulis ulang teks masukan melalui LLM persona sebelum TTS).
Performa dan Kompatibilitas Lintas Platform
Voicebox dibangun dengan Tauri (Rust) untuk performa asli, bukan Electron. Ini memastikan pengalaman pengguna yang lebih cepat dan responsif. Aplikasi ini berjalan di berbagai platform dengan dukungan GPU yang luas:
| Platform | Backend | Catatan |
|---|---|---|
| macOS (Apple Silicon) | MLX (Metal) | 4-5x lebih cepat melalui Neural Engine |
| Windows / Linux (NVIDIA) | PyTorch (CUDA) | Mengunduh biner CUDA secara otomatis dari dalam aplikasi |
| Linux (AMD) | PyTorch (ROCm) | Mengonfigurasi HSA_OVERRIDE_GFX_VERSION secara otomatis |
| Windows (GPU apa pun) | DirectML | Dukungan GPU Windows universal |
| Intel Arc | IPEX/XPU | Akselerasi GPU diskrit Intel |
| Apa pun | CPU | Berfungsi di mana saja, tetapi lebih lambat |
Untuk fitur Speech-to-Text (STT), Voicebox menggunakan OpenAI Whisper (Base / Small / Medium / Large, serta Turbo yang sekitar 8x lebih cepat dari Whisper Large). STT ini berjalan di MLX (Apple Silicon) atau PyTorch (CUDA / ROCm / DirectML / CPU) tergantung platform Anda.
Integrasi API dan MCP
Voicebox menyediakan REST API untuk mengintegrasikan I/O suara ke dalam aplikasi dan agen Anda sendiri. Ini memungkinkan pengembang untuk memanfaatkan fungsionalitas Voicebox secara terprogram.
bash# Menghasilkan ucapan curl -X POST http://127.0.0.1:17493/generate \ -H "Content-Type: application/json" \ -d '{"text": "Halo dunia", "profile_id": "abc123", "language": "en"}' # Output suara agen , aplikasi atau skrip apa pun dapat berbicara dengan suara yang dikloning curl -X POST http://127.0.0.1:17493/speak \ -H "Content-Type: application/json" \ -H "X-Voicebox-Client-Id: skrip-saya" \ -d '{"text": "Penyebaran telah selesai.", "profile": "Morgan"}' # Mentranskripsikan file audio curl -X POST http://127.0.0.1:17493/transcribe \ -F "audio=@rekaman.wav" \ -F "model=whisper-turbo"
Voicebox juga dilengkapi server Model Context Protocol (MCP) bawaan. Ini memungkinkan agen yang kompatibel dengan MCP (seperti Claude Code, Cursor, Windsurf, Cline, atau ekstensi VS Code MCP) untuk berbicara, mentranskripsi, dan menjelajahi rekaman serta profil suara. Pengikatan suara per-klien dapat dikelola di pengaturan Voicebox.
Melihat ke Masa Depan: Roadmap Voicebox
Pengembang Voicebox memiliki rencana ambisius untuk masa depan. Beberapa fitur yang ada di roadmap meliputi:
- Windows / Linux auto-paste: Untuk paritas penempelan diktasi.
- Perluasan mesin STT: Menambahkan Parakeet v3 dan Qwen3-ASR untuk cakupan bahasa yang lebih luas dan kualitas non-Inggris yang lebih baik.
- Routing pipeline: Rantai sumber → transformasi → sink yang dapat dikonfigurasi.
- Transkripsi streaming:
WebSocket /transcribe/streamuntuk transkripsi parsial saat Anda berbicara. - LLM pidato ujung-ke-ujung: Model seperti Moshi, GLM-4-Voice, Qwen2.5 Omni untuk suara-ke-suara tanpa teks perantara.
- Desain suara: Membuat suara baru dari deskripsi teks.
- Perekaman jangka panjang: Perekam dual-stream (mikrofon + audio sistem) dengan transformasi LLM ringkasan.
- Sinks platform: Integrasi opt-in dengan Apple Notes, Obsidian, dan lainnya.
- Arsitektur plugin: Memperluas dengan model, transformasi, dan sink kustom.
- Pendamping seluler: Mengontrol Voicebox dari ponsel Anda.
Memulai dengan Voicebox
Anda bisa mengunduh Voicebox untuk macOS, Windows, atau Docker langsung dari situs web mereka. Pengguna Linux saat ini perlu membangun dari sumber. Jika Anda seorang pengembang, Voicebox menawarkan alur kerja yang mudah untuk memulai:
bashgit clone https://github.com/jamiepine/voicebox.git cd voicebox just setup # membuat Python venv, menginstal semua dependensi just dev # memulai backend + aplikasi desktop
Pastikan Anda memiliki Bun, Rust, Python 3.11+, dan Xcode (di macOS) sebagai prasyarat.
Voicebox bukan hanya alat. Ini adalah ekosistem suara yang berjalan di mesin Anda, memberikan kekuatan kloning suara, sintesis multibahasa, diktasi, dan integrasi agen AI, semua dengan privasi penuh.
Referensi
https://github.com/jamiepine/voicebox
