VoiceVox: Mesin Sintesis Suara Jepang Sumber Terbuka

Jika Anda belakangan ini sering menonton YouTube Jepang, memainkan game doujin, atau mengikuti streaming VTuber, kemungkinan besar Anda pernah mendengar VoiceVox tanpa benar-benar menyadari namanya. Perangkat lunak ini secara perlahan membentuk sebuah subkultur tersendiri: karakter sintetik seperti ずんだもん (Zundamon) dan 四国めたん (Shikoku Metan) membacakan naskah, memandu video, dan menjawab pertanyaan dengan suara yang terasa hidup. VoiceVox adalah mesin text-to-speech sumber terbuka untuk bahasa Jepang, gratis, dapat berjalan sepenuhnya secara luring, dan didukung oleh komunitas yang sangat aktif — mulai dari pengembang, ilustrator, hingga kreator konten.

Di sisi lain, VoiceVox juga alat yang bermanfaat bagi siapa pun yang belajar bahasa Jepang. Anda bisa mendengarkan bagaimana sebuah kalimat seharusnya terdengar, membandingkan intonasi antar-pembicara, dan mengubah teks panjang menjadi audio yang dapat diputar ulang saat bepergian, belajar, atau sekadar mengisi waktu. Artikel ini membahas apa sebenarnya VoiceVox itu, dari mana asalnya, bagaimana cara kerja teknologinya, suara dan lisensi apa saja yang disertakan, serta perannya dalam ekosistem sintesis suara berbantuan AI untuk bahasa Jepang.

Daftar karakter resmi VoiceVox, masing-masing mewakili satu atau beberapa gaya suara — Setiap karakter resmi VoiceVox mewakili sekumpulan gaya suara yang saling berkaitan, bukan sekadar satu suara tunggal.

Daftar isi 28

Apa itu VoiceVox?

VoiceVox adalah aplikasi text-to-speech (TTS) sumber terbuka yang dirancang khusus untuk bahasa Jepang, dikembangkan oleh Hiroshiba Kazuyuki. Kode sumber mesinnya tersedia di GitHub pada repositori VOICEVOX/voicevox dan dirilis di bawah Lisensi MIT, yang berarti siapa pun dapat mengunduh, menjalankan, memodifikasi, dan menyematkannya ke proyek lain tanpa biaya lisensi.

Secara struktur, VoiceVox terbagi menjadi dua komponen utama. Mesin text-to-speech yang mengubah teks tertulis bahasa Jepang menjadi audio, dan antarmuka grafis (GUI) yang memungkinkan Anda memilih pembicara, menyesuaikan intonasi, menambahkan jeda, lalu mengekspor hasilnya sebagai file WAV. Mesinnya juga dapat diakses melalui API HTTP, sehingga relatif mudah diintegrasikan dengan aplikasi lain — seperti editor video, OBS untuk livestreaming, atau bahkan bot obrolan di Discord dan platform lain.

Karakter sebagai pembicara

Salah satu ciri khas VoiceVox adalah penggunaan karakter, bukan sekadar daftar suara anonim. Setiap karakter — seperti ずんだもん (Zundamon), 四国めたん (Shikoku Metan), 春日部つむぎ (Kasukabe Tsumugi), 波音リツ (Namine Ritsu), 玄野武宏 (Kurono Takehiro), dan 白上虎太郎 (Shirakami Kotarou) — dirancang oleh ilustrator yang berbeda dan memiliki persona visualnya sendiri. Di balik karakter tersebut, masing-masing menyimpan beberapa gaya suara yang bisa Anda pilih: nada tenang, nada bersemangat, bisikan, teriakan, gaya kasual, dan lain-lain. Pendekatan ini membuat VoiceVox terasa lebih seperti kumpulan tokoh, bukan sekadar deretan suara sintetis.

Lisensi dan penggunaan komersial

Mesin VoiceVox sendiri dirilis dengan Lisensi MIT yang sangat permisif. Namun, lisensi untuk model suara setiap karakter bervariasi dan biasanya ditentukan oleh penyumbang karakter tersebut. Beberapa karakter dilisensikan untuk penggunaan komersial tanpa syarat tambahan, sebagian lain hanya untuk penggunaan non-komersial, dan sebagian lagi mengharuskan Anda menggabungkan audio dengan musik latar atau elemen lain sebelum dapat digunakan secara komersial (sering kali melalui fitur yang disebut AudioMerge). Sebelum menggunakan VoiceVox untuk konten yang menghasilkan pendapatan, sebaiknya periksa dulu lisensi spesifik pembicara yang akan Anda pakai di situs resmi VoiceVox.

Sejarah dan perkembangan TTS Jepang

VoiceVox tidak lahir di ruang hampa. Untuk memahami konteksnya, kita perlu mundur sedikit ke sejarah sintesis suara berbahasa Jepang.

Awal mula VOICEROID dan era komersial

Sintesis suara untuk bahasa Jepang dalam bentuk yang dapat dipakai konsumen sudah ada jauh sebelum VoiceVox. Produk seperti VOICEROID dari AH-Software (sejak 2007) dan VOICEPEAK dari Internet Co. adalah contoh perangkat lunak komersial yang lebih dulu populer. VOICEROID, khususnya, dikenal luas di kalangan kreator video di Niconico dan YouTube Jepang karena beberapa karakternya — seperti 結月ゆかり (Yuzuki Yukari) dan 東北きりたん (Tohoku Kiritan) — menjadi semacam ikon. Produk-produk ini biasanya dijual sebagai lisensi per karakter dan tidak menyediakan kode sumber.

Model bisnis ini berhasil, tetapi juga menimbulkan keterbatasan: pengguna tidak bisa menyesuaikan model suaranya, menambahkan karakter baru, atau mengintegrasikan mesinnya ke dalam proyek lain tanpa perjanjian lisensi tambahan. Komunitas pun mulai mencari alternatif yang lebih terbuka.

Peluncuran VoiceVox

Pada 2020, Hiroshiba Kazuyuki merilis versi awal VoiceVox secara gratis. Pendekatan yang diambilnya berbeda dari pendahulunya: mesinnya dikembangkan dengan memanfaatkan komponen sumber terbuka, lalu dibuka untuk umum. Tahun berikutnya, pada 2021, proyek ini sepenuhnya di-pindahkan ke GitHub dengan lisensi MIT, dan komunitas pun mulai tumbuh — tidak hanya dari sisi teknis, tetapi juga dari sisi seni (desain karakter, ilustrasi) dan konten (video, streaming, dubbing).

Antarmuka aplikasi VoiceVox dengan kolom teks, daftar karakter, dan panel pengaturan intonasi — Tampilan antarmuka desktop VoiceVox saat ini: ketik teks di sebelah kiri, pilih karakter dan gaya, lalu pratinjau serta ekspor audio di sebelah kanan.

Seiring waktu, VoiceVox menambahkan lebih banyak karakter, memperbarui model-model suara, dan mengintegrasikan dukungan untuk akselerasi GPU (CUDA untuk kartu grafis NVIDIA, dan Metal untuk komputer Mac dengan Apple Silicon). Pada saat yang sama, layanan komersial lain seperti A.I.VOICE dari AI Inc. mulai bermitra dengan ekosistem VoiceVox, merilis karakter-karakter baru yang bisa dijalankan di atas engine sumber terbuka tersebut.

Komunitas dan ekosistem

Salah satu kekuatan terbesar VoiceVox adalah komunitasnya. Forum diskusi, server Discord, akun Twitter/X resmi, dan repositori GitHub menjadi titik temu antara pengguna, kontributor, dan penyumbang karakter baru. Banyak ilustrator independen yang secara sukarela membuat desain karakter untuk VoiceVox, lalu melatih model suara mereka sendiri dan merilisnya secara gratis. Pola kolaboratif ini jarang terjadi pada perangkat lunak sintesis suara lainnya, dan menjadi salah satu alasan mengapa daftar pembicara VoiceVox berkembang begitu cepat.

Teknologi di balik VoiceVox

Di balik tampilannya yang sederhana, VoiceVox memadukan beberapa komponen kecerdasan buatan modern. Bagian ini membahas lapisan-lapisan teknisnya secara ringkas — tanpa bermaksud menjadi panduan pemrograman.

Text front-end

Langkah pertama dalam sintesis suara adalah mengubah teks tertulis menjadi representasi yang dapat diproses oleh model. Untuk bahasa Jepang, ini bukan perkara sepele: sistem harus memutuskan bagaimana membaca kanji (contohnya 今日は dibaca kyou wa atau konnichiwa tergantung konteks), bagaimana membagi kalimat menjadi frasa-frasa bermakna, dan di mana harus meletakkan jeda serta penekanan. VoiceVox melakukan pra-pemrosesan ini sebelum masuk ke model akustik.

Model akustik dan vocoder

Setelah teks dianalisis, hasilnya dimasukkan ke model akustik — sebuah jaringan neural yang memprediksi mel-spektogram, yaitu representasi matematis dari suara dalam domain frekuensi. Mel-spektogram ini kemudian diteruskan ke vocoder, yang mengubah representasi tersebut menjadi bentuk gelombang audio yang dapat diputar. VoiceVox sendiri kemungkinan besar menggunakan arsitektur yang mirip dengan atau terinspirasi dari proyek sumber terbuka seperti Style-Bert-VITS2 dan GPT-SoVITS, yang menjadi populer di komunitas TTS Jepang pada 2022-2023.

Mode GPU dan CPU

Sintesis suara neural membutuhkan daya komputasi yang tidak sedikit. VoiceVox menyediakan dua mode eksekusi. Mode GPU menggunakan kartu grafis (CUDA pada NVIDIA, Metal pada Apple Silicon) untuk mempercepat proses secara signifikan — pemrosesan kalimat pendek bisa hampir real-time. Mode CPU, di sisi lain, berjalan di hampir semua perangkat keras modern, termasuk laptop dengan spesifikasi rendah, dengan konsekuensi waktu pemrosesan yang lebih lama. Mode CPU inilah yang membuat VoiceVox dapat dijalankan secara luring pada perangkat yang tidak memiliki GPU khusus.

API HTTP dan integrasi

Bagi pengguna yang ingin mengotomatiskan proses atau mengintegrasikan VoiceVox ke dalam aplikasi lain, tersedia VoiceVox Engine yang dapat dijalankan sebagai layanan HTTP lokal. Dengan API ini, sebuah program klien dapat mengirim teks dan parameter (seperti pembicara, kecepatan, intonasi) lalu menerima kembali data audio. Pola ini banyak dipakai oleh plugin OBS, bot Discord, skrip pengubahan buku elektronik menjadi audiobook, dan pipeline produksi video otomatis.

Kasus penggunaan dan aplikasi

VoiceVox digunakan di banyak konteks yang berbeda. Berikut beberapa penerapan yang paling umum di ekosistem Jepang.

Konten video dan VTuber

Penggunaan paling mencolok dari VoiceVox adalah di platform video. Banyak kanal YouTube Jepang yang menjelaskan berita, melakukan tinjauan anime, atau membuat video edukasi menggunakan suara sintetik dari VoiceVox sebagai narator. Di dunia VTuber, beberapa streamer menggunakan karakter VoiceVox (terutama ずんだもん) untuk主持直播, menjawab komentar, atau bahkan berdialog dengan penonton secara real-time. Popularitas Zundamon sebagai semacam maskot subkultur ini sudah sedemikian besar hingga muncul di iklan, kolaborasi resmi, dan bahkan acara televisi.

Game doujin dan fan dub

Di ranah game doujin (game indie buatan komunitas), VoiceVox menjadi cara yang murah dan cepat untuk mengisi suara karakter tanpa harus menyewa aktor profesional. Pengembang kecil cukup melatih model suara untuk karakternya (atau menggunakan model yang sudah ada) lalu mengintegrasikannya ke dalam engine game mereka. Pola serupa juga terlihat di komunitas fan dub, yaitu komunitas yang membuat sulih suara dalam bahasa Jepang untuk film atau anime yang sebelumnya tidak memiliki sulih suara resmi.

Pembelajaran bahasa dan aksesibilitas

Bagi pelajar bahasa Jepang, VoiceVox dapat dipakai sebagai alat bantu pendengaran. Anda dapat mengetik kalimat dan mendengarkan bagaimana kalimat itu diucapkan dengan intonasi yang konsisten — sebuah fitur yang sangat berguna saat Anda ingin membandingkan pelafalan Anda sendiri dengan pelafalan standar. Di sisi lain, VoiceVox juga dimanfaatkan sebagai alat aksesibilitas, misalnya untuk membantu penyandang tunanetra dalam mendengarkan dokumen teks atau bagi pengguna yang lebih nyaman mengonsumsi informasi dalam format audio.

Bot obrolan dan eksperimen pribadi

Tidak sedikit pengguna yang membuat bot obrolan di Discord atau Line dengan suara dari VoiceVox. Biasanya, bot ini menggabungkan API VoiceVox dengan model bahasa besar (LLM) sehingga pengguna dapat mengetik pesan dan menerima balasan dalam bentuk suara. Ada pula yang bereksperimen dengan melatih model suara baru menggunakan rekaman suara mereka sendiri, lalu mengintegrasikannya kembali ke VoiceVox Engine — meskipun proses ini memerlukan pemahaman teknis yang cukup dan catatan penting tentang persetujuan serta etika penggunaan.

Suara yang tersedia dan lisensi

Salah satu pertanyaan paling sering diajukan tentang VoiceVox adalah daftar suara apa saja yang tersedia. Perlu dicatat bahwa daftar ini berubah dari waktu ke waktu seiring dengan ditambahkannya karakter baru.

Karakter utama

Beberapa karakter yang biasanya disertakan dalam instalasi standar VoiceVox antara lain: 四国めたん (Shikoku Metan) dengan belasan gaya suara yang mencakup nada normal, ceria, sedih, dan berbisik; ずんだもん (Zundamon) dengan sekitar sebelas gaya yang sangat populer di kalangan kreator konten; 春日部つむぎ (Kasukabe Tsumugi) dengan suara hangat khas karakter perempuan muda; 雨晴はう (Amehare Hau) yang lembut dan tenang; 波音リツ (Namine Ritsu) dengan gaya netral yang sering dipakai untuk narasi; 玄野武宏 (Kurono Takehiro) sebagai salah satu suara maskulin; 白上虎太郎 (Shirakami Kotarou) dengan karakter kucing yang jenaka; serta 青山龍星 (Aoyama Ryusei) dengan gaya laki-laki muda. Jumlah pasti gaya untuk setiap karakter dapat berubah di setiap rilis, sehingga lebih aman untuk merujuk ke daftar resmi.

Dukungan bahasa Inggris

Salah satu keterbatasan VoiceVox adalah fokusnya yang sangat kuat pada bahasa Jepang. Untuk teks bahasa Inggris, hasil sintesisnya biasanya terdengar kurang alami karena model-model suara pada dasarnya dilatih dengan data berbahasa Jepang. Karakter bernama Lucy kadang disebut sebagai pembicara dengan kemampuan bahasa Inggris yang lebih baik, tetapi kualitasnya masih jauh dari TTS bahasa Inggris khusus seperti yang ditawarkan oleh layanan komersial besar. Jika proyek Anda membutuhkan sintesis bahasa Inggris yang natural, VoiceVox mungkin bukan pilihan utama — kecuali Anda siap menerima hasil yang seadanya atau melatih ulang model dengan data Anda sendiri.

Model, lisensi, dan AudioMerge

Seperti telah disinggung sebelumnya, lisensi model suara bervariasi per karakter. Untuk keperluan komersial, sebagian karakter mengharuskan Anda menggunakan fitur AudioMerge yang disediakan di aplikasi resmi. Fitur ini menggabungkan audio sintetik dengan musik latar sehingga tidak dapat diisolasi kembali menjadi suara murni, sesuai dengan ketentuan lisensi spesifik karakter tersebut. Selalu periksa halaman pembicara di situs resmi VoiceVox sebelum menggunakan salah satu karakter untuk konten yang menghasilkan uang.

VoiceVox dan masa depan TTS Jepang

VoiceVox hanyalah satu titik di peta yang lebih besar. Untuk melihat ke mana arah teknologi ini, ada baiknya membandingkannya dengan layanan lain dan mencermati tren yang lebih luas.

Perbandingan dengan TTS komersial

Di satu sisi ada TTS komersial berbayar seperti VOICEROID, A.I.VOICE, dan VOICEPEAK yang menawarkan kualitas tinggi dan dukungan pelanggan profesional. Di sisi lain ada VoiceVox yang gratis dan sumber terbuka. Masing-masing memiliki kekuatan: produk komersial biasanya lebih stabil untuk penggunaan profesional, sedangkan VoiceVox unggul dalam hal fleksibilitas, kustomisasi, dan biaya nol. Ada pula proyek sumber terbuka lain seperti COEIROINK yang berada di posisi serupa dengan VoiceVox dan kadang dianggap sebagai alternatif.

Keuntungan sumber terbuka

Keuntungan paling jelas dari VoiceVox adalah biaya: aplikasi ini gratis untuk diunduh dan digunakan, termasuk untuk keperluan komersial pada engine-nya sendiri. Keuntungan lain adalah transparansi — kode sumbernya terbuka, sehingga siapa pun dapat memeriksa cara kerjanya, menemukan kelemahan, atau mengoptimalkannya. Terakhir, kustomisasi: pengguna yang memiliki pengetahuan teknis dan data rekaman yang sesuai dapat melatih model suara baru atau menyempurnakan model yang sudah ada.

Keterbatasan utama

Di sisi lain, keterbatasan VoiceVox juga nyata. Pertama, fokusnya pada bahasa Jepang membuat kualitas di bahasa lain jauh dari optimal. Kedua, kualitas model suara sangat bergantung pada data latihan yang dikumpulkan oleh masing-masing kontributor, sehingga ada variasi yang cukup besar antar-pembicara. Ketiga, meskipun GUI-nya mudah digunakan, pelatihan model baru atau integrasi API tetap memerlukan pemahaman teknis yang tidak dimiliki oleh sebagian pengguna awam. Terakhir, dukungan pelanggan formal tidak tersedia — jika Anda menghadapi masalah, Anda biasanya harus bertanya di komunitas.

Tren dan perkembangan

Sintesis suara bergerak dengan cepat. Di tingkat riset, muncul model-model baru seperti VALL-E dan SoundStorm yang mampu meniru suara seseorang hanya dari sampel pendek, serta codec neural yang memungkinkan latensi rendah untuk aplikasi real-time. Tren ini belum tentu langsung masuk ke VoiceVox, tetapi secara umum akan membentuk arah pengembangan TTS dalam beberapa tahun ke depan. Di Jepang sendiri, integrasi TTS dengan model bahasa besar (LLM) juga semakin umum, di mana teks yang dihasilkan oleh AI dapat langsung diucapkan dengan karakter pilihan pengguna.

Etika dan persetujuan

Semakin mudahnya teknologi ini juga memunculkan pertanyaan etis. Kloning suara tanpa persetujuan, deepfake audio, dan penyalahgunaan identitas suara adalah risiko nyata yang harus dipertimbangkan. Secara umum, disarankan untuk tidak menggunakan VoiceVox atau TTS serupa untuk meniru suara orang lain tanpa izin tegas, dan untuk memberi label yang jelas ketika audio yang diputar adalah hasil sintesis. Komunitas VoiceVox sendiri, sejauh ini, cenderung memegang teguh prinsip bahwa setiap model suara yang digunakan untuk hal-hal tersebut haruslah model dengan lisensi yang sesuai atau karya orisinal penciptanya.

Melihat ke depan

Sulit dipungkiri bahwa VoiceVox telah mengubah cara banyak orang — kreator, pelajar, dan pengembang — berinteraksi dengan suara sintetik berbahasa Jepang. Dengan lebih banyak karakter, lebih banyak bahasa, dan kualitas yang semakin membaik dari waktu ke waktu, kemungkinan besar ekosistem ini akan terus berkembang. Keterlibatan komunitas melalui Discord, Twitter/X, dan GitHub akan tetap menjadi faktor penentu, karena di situlah karakter-karakter baru lahir, model suara diperbaiki, dan ide-ide segar bermunculan.

Jika Anda baru mengenal VoiceVox, cara terbaik untuk mulai adalah dengan mengunduh aplikasi resminya, mencoba beberapa karakter bawaan, dan membandingkan bagaimana mereka membacakan kalimat yang sama. Dari situ, Anda bisa memutuskan sendiri apakah alat ini cukup untuk kebutuhan Anda, atau apakah Anda ingin mengintegrasikannya ke dalam proyek yang lebih besar.

VoiceVox - Sintesis Suara Jepang