VoiceVox: el sintetizador de voz japonés de código abierto

Si has pasado algo de tiempo en YouTube japonés, en juegos doujin o en directos de VTubers, casi con seguridad ya has escuchado VoiceVox aunque no reconocieras el nombre. El software ha ido moldeando una pequeña subcultura: personajes sintéticos como ずんだもん (Zundamon) o 四国めたん (Shikoku Metan) narran guiones, presentan vídeos y responden preguntas con voces que suenan sorprendentemente vivas. VoiceVox es un motor de texto a voz de código abierto pensado para japonés, gratis, capaz de funcionar por completo sin conexión y respaldado por una comunidad inusualmente activa de desarrolladores, ilustradores y creadores de contenido.

También resulta útil para quien estudia japonés: permite escuchar cómo debería sonar una frase, comparar la entonación entre hablantes y convertir pasajes largos en audio reproducible durante el viaje, en casa o entre tareas. Este artículo repasa qué es VoiceVox en la práctica, de dónde viene, cómo funciona la tecnología por dentro, qué voces y licencias incluye, y qué papel ocupa en el ecosistema más amplio de la síntesis de voz con IA en japonés.

El elenco oficial de personajes de VoiceVox, cada uno representando uno o varios estilos de voz — Cada personaje oficial de VoiceVox representa un conjunto de estilos de voz relacionados, no una sola voz.

Índice 20

¿Qué es VoiceVox?

VoiceVox es una aplicación de texto a voz (TTS) de código abierto diseñada para japonés, desarrollada por Hiroshiba Kazuyuki. El código fuente del motor está en GitHub bajo VOICEVOX/voicevox y se distribuye bajo licencia MIT, lo que permite descargarlo, ejecutarlo, modificarlo e integrarlo en otros proyectos sin pagar licencias.

En la práctica, VoiceVox se divide en dos partes. Un motor de texto a voz que convierte japonés escrito en audio, y una interfaz gráfica (GUI) que permite elegir personaje, ajustar la entonación, modificar el ritmo y exportar el resultado como archivo WAV. El motor, además, expone una API HTTP local, lo que lo hace fácil de integrar en editores de vídeo,OBS, motores de juego y otros programas que necesiten narración sintética en japonés.

La aplicación es multiplataforma: tiene versiones oficiales para Windows, macOS y Linux, y existe una versión para navegador pensada para probar las voces sin instalar nada. La GUI está pensada para que un usuario sin experiencia pueda generar audio en pocos minutos: escribes el texto, eliges personaje y estilo, y obtienes la voz.

Uso práctico y flujo de trabajo

El flujo típico con VoiceVox se reduce a cuatro pasos: instalar la aplicación desde la página oficial o desde GitHub, abrir la GUI, escribir o pegar el texto en japonés y elegir un personaje y un estilo de voz. El motor genera el audio y permite exportarlo en WAV con calidad de estudio, listo para montar sobre un vídeo, un podcast o un juego.

Para perfiles más técnicos, el motor puede ejecutarse en segundo plano como servidor local y responder peticiones HTTP. Esto permite, por ejemplo, que un bot de Discord lea mensajes en japonés, que una escena de un juego doujin narre acciones en tiempo real, o que un editor genere locuciones automáticas desde un script propio.

Historia y desarrollo del TTS japonés

Para entender por qué VoiceVox existe conviene retroceder un poco. La síntesis de voz en japonés tiene una tradición más larga de lo que parece:，早在2000年代前半には、VOICEROIDのような商用ソフトが声優事務所と共同で開発され、テキスト読み上げを身近なツールにしていました。VOICEROID、2007年にAH-Softwareから発売され、以後十年にわたって日本語TTSの代表格となりました。

El siguiente salto llegó con el deep learning. Los primeros sistemas de TTS se basaban en concatenación de fragmentos pregrabados; los modelos modernos, en cambio, aprenden a generar voz a partir de grandes corpus de audio. VoiceVox se apoya precisamente en esa segunda generación: utiliza modelos de redes neuronales profundas entrenados sobre horas de grabación de actores y actrices de voz profesionales japonesas, lo que permite entonación natural y estilos diferenciados por personaje.

El proyecto se publicó en GitHub en 2020-2021 y creció con rapidez. Su éxito se explica por una combinación poco habitual: motor técnicamente sólido, licencia abierta que permite uso comercial, y un elenco de personajes con ilustraciones oficiales que la comunidad puede reutilizar bajo condiciones claras. Esa mezcla convirtió a VoiceVox en una especie de estándar de facto para TTS japonés en proyectos amateur y semiprofesionales.

Comunidad y ecosistema

La comunidad de VoiceVox se organiza principalmente en GitHub, Discord y Twitter. Los usuarios aportan desde ilustraciones alternativas y nuevos estilos de voz hasta herramientas complementarias: editores de parámetros, integraciones con OBS, plugins para motores de juego como Unity o Godot, y bots de chat. El ritmo de actualizaciones es alto y cada pocas semanas se incorporan nuevos personajes o mejoras en la calidad de las voces existentes.

La tecnología detrás de VoiceVox

El motor de VoiceVox es, por debajo, una cadena de varios componentes que cooperan. Cada uno cumple un papel distinto y entender la cadena ayuda a entender por qué el resultado suena natural y por qué el proyecto se puede entrenar con voces nuevas.

El pipeline de síntesis

El primer paso es el front-end de texto. El motor analiza la frase escrita, la convierte en una secuencia de fonemas japoneses (incluyendo la rendaku, las geminadas y la asignación correcta de acentos), y añade información prosódica初步: dónde van las pausas, qué sílabas llevan acento y qué entonación aproximada debe tener la frase.

A continuación entra el modelo acústico. Se trata de una red neuronal profunda, normalmente basada en arquitecturas tipo VITS, Style-Bert-VITS2 o GPT-SoVITS, que toma la secuencia de fonemas y la convierte en un mel-espectrograma. Aquí es donde aparece la “personalidad” de cada voz: el modelo ha sido entrenado con horas de grabación de un hablante concreto, y reproduce su timbre, su cadencia y sus peculiarities prosódicas.

El último paso es el vocoder. El vocoder toma el mel-espectrograma y lo convierte en una forma de onda audible. En VoiceVox se usan vocoders neuronales capaces de generar audio con calidad de estudio a velocidades muy por encima de tiempo real en una GPU moderna.

Hardware, aceleración y API

VoiceVox admite dos modos de funcionamiento. El modo GPU aprovecha CUDA en tarjetas NVIDIA o Metal en chips Apple Silicon para acelerar la síntesis y reducir la latencia. El modo CPU es más lento pero permite usar el motor en máquinas modestas, lo que resulta clave para estudiantes y creadores con portátiles de gama media.

La API HTTP local es probablemente la pieza que más ha hecho crecer el ecosistema. Permite enviar texto, recibir audio y ajustar parámetros desde cualquier lenguaje de programación. Eso ha facilitado integraciones con editores de vídeo, herramientas de streaming, motores de juego y aplicaciones de mensajería, y es la base de buena parte de los bots de Discord y los asistentes de voz que usan VoiceVox como motor.

Entrenar voces propias

Una de las posibilidades más interesantes del motor es que admite entrenar voces nuevas a partir de grabaciones propias. El flujo habitual consiste en grabar varios minutos de lectura en japonés limpio, alinear el audio con la transcripción, y entrenar un modelo acústico específico para esa voz. Esto abre la puerta a doblajes personalizados, voces institucionales y proyectos creativos, aunque también plantea cuestiones serias de consentimiento y uso ético que conviene tener presentes.

Casos de uso y aplicaciones

La popularidad de VoiceVox se entiende mejor mirando lo que la gente hace con él. El motor se ha colado en flujos de trabajo muy distintos, desde el streaming en directo hasta la producción de podcasts.

YouTube y VTubers

El uso más visible está en YouTube. Canales de explicación, reseñas de anime, vídeos de curiosidades y canales de historia japonesa usan voces como ずんだもん o 四国めたん para narrar sus guiones. En el ámbito de los VTubers, muchos directos y vídeos cortos recurren a VoiceVox para responder comentarios, dar avisos o contar chistes, a veces combinados con avatares en 2D o 3D.

Juegos doujin y creación indie

El motor es especialmente popular en el circuito doujin. Estudios pequeños y爱好者 pueden dotar de voz a sus personajes sin necesidad de contratar a un actor profesional, lo que abarata la producción y acorta los plazos. Lo mismo ocurre con novelas visuales, fangames y mods, donde la voz sintética se ha convertido en una solución pragmática para proyectos con presupuesto limitado.

Educación y aprendizaje de japonés

Para quien estudia japonés, VoiceVox sirve como referencia auditiva: permite escuchar la misma frase en voces distintas, comparar estilos y entrenar el oído con entonación natural. Algunos profesores y creadores de contenido educativo lo usan para generar materiales de listening a medida, eligiendo el personaje cuya cadencia mejor se ajusta al nivel del estudiante.

Accesibilidad y otras aplicaciones

También hay usos menos visibles. VoiceVox se emplea en bots de Discord y asistentes de voz, en herramientas de accesibilidad para personas con discapacidad visual, en la lectura automática de notificaciones, e incluso en la generación de audiolibros y podcasts a partir de texto. La posibilidad de ejecutarlo por completo sin conexión lo hace atractivo allí donde la nube no es una opción.

Voces disponibles y licencias

El catálogo de voces de VoiceVox es uno de sus puntos fuertes. Cada personaje oficial viene con un set de estilos grabados por un actor o actriz de voz profesional, y cada estilo cubre un matiz distinto: habla normal, susurro, grito, voz aniñada, narración, etc.

Personajes destacados

Entre los más conocidos están 四国めたん (Shikoku Metan), con múltiples variantes pensadas para cubrir registros muy distintos; ずんだもん (Zundamon), probablemente la voz más popular del proyecto y habitual en vídeos de YouTube; 春日部つむぎ (Kasukabe Tsumugi); 雨晴はう (Amehare Hau); 波音リツ (Namine Ritsu); 玄野武宏 (Kurono Takehiro); 白上虎太郎 (Shirakami Kotarou) y 青山龍星 (Aoyama Ryusei). También existe una voz llamada Lucy orientada al inglés, aunque el soporte para otros idiomas sigue siendo limitado y el verdadero punto fuerte del motor es el japonés.

Licencias y uso comercial

Conviene separar dos planos. El motor (VOICEVOX Engine) se distribuye bajo licencia MIT, lo que permite su uso comercial sin restricciones más allá de las que marque la propia licencia. Los modelos de voz de cada personaje, en cambio, tienen condiciones específicas fijadas por el actor o actriz y por el equipo del proyecto: en la mayoría de los casos permiten uso comercial gratuito, pero siempre conviene revisar los términos vigentes en la página oficial antes de publicar un producto o un vídeo monetizado.

Para los casos en los que la licencia del personaje no encaje con el proyecto, existen alternativas como combinar varias voces con AudioMerge o recurrir a motores abiertos compatibles, manteniendo siempre el respeto a las condiciones de uso de cada modelo.

VoiceVox y el futuro del TTS japonés

VoiceVox se ha convertido en un punto de referencia obligado al hablar de síntesis de voz en japonés, pero no está solo. Conviene situarlo dentro del ecosistema para entender qué aporta frente a las alternativas comerciales y qué puede mejorar en los próximos años.

Frente a las alternativas comerciales

El mercado japonés cuenta con productos asentados como VOICEROID (AH-Software), A.I.VOICE y VOICEPEAK. Son motores con voces muy pulidas, buena documentación y soporte oficial, pero de pago y con condiciones de uso más estrictas. VoiceVox juega la carta opuesta: gratis, abierto, modificable y respaldado por una comunidad enorme, a costa de un acabado ligeramente más “casero” en algunos casos.

Ética y clonación de voz

Como cualquier tecnología de síntesis de voz, VoiceVox plantea dilemas éticos que conviene nombrar. La posibilidad de entrenar voces nuevas a partir de grabaciones propias abre la puerta a usos legítimos (doblez personalizado, voces institucionales, accesibilidad) y también a usos problemáticos: clonación no consentida, deepfakes de famosos, suplantación en llamadas y fraudes. La propia comunidad del proyecto insiste en usar estas herramientas con responsabilidad, obtener consentimiento cuando la voz no sea la propia y dejar clara la naturaleza sintética del audio cuando pueda haber confusión.

Hacia donde va el TTS japonés

Los modelos generativos de voz avanzan deprisa. Arquitecturas recientes como VALL-E o SoundStorm prometen clonación con pocos segundos de audio y síntesis en streaming con latencia muy baja, lo que abrirá nuevas puertas en streaming en directo, traducción simultánea y asistentes conversacionales. VoiceVox probablemente seguirá siendo un actor relevante en ese escenario, sobre todo si mantiene su apuesta por el código abierto y por una comunidad que ya ha demostrado ser capaz de sostener el proyecto a largo plazo.

¿Te imaginas usando VoiceVox para dar voz a un proyecto propio, o prefieres escuchar voces humanas siempre que sea posible? Si has llegado hasta aquí, ya tienes una base bastante completa para decidir.

Captura de la interfaz de VoiceVox mostrando la selección de personaje, los parámetros de entonación y el texto de entrada — La GUI de VoiceVox permite ajustar velocidad, tono y entonación antes de exportar el audio final.

VoiceVox - El Sintetizador de Voz Japonés