VoiceVox : le synthétiseur vocal japonais open source

Si tu traînes sur YouTube, sur Twitch ou dans des communautés de jeux doujin, tu as forcément croisé VoiceVox sans toujours le savoir. Le logiciel a façonné toute une petite culture : des personnages synthétiques comme ずんだもん (Zundamon) ou 四国めたん (Shikoku Metan) lisent des scripts, animent des vidéos et répondent à des questions avec des voix qui sonnent étonnamment vivantes. VoiceVox est un moteur de synthèse vocale open source dédié au japonais, gratuit, capable de tourner entièrement hors ligne et soutenu par une communauté particulièrement active de développeurs, d'illustrateurs et de créateurs.

C'est aussi un outil pratique quand on apprend le japonais. Tu peux entendre comment une phrase doit sonner, comparer l'intonation d'un locuteur à l'autre, et transformer un long passage de texte en audio que tu réécoutes dans les transports ou en cuisinant. Cet article reprend ce qu'est VoiceVox concrètement, d'où il vient, comment la technologie fonctionne sous le capot, quelles voix et quelles licences il embarque, et quelle place il occupe dans l'écosystème plus large de la synthèse vocale japonaise.

Le casting officiel des personnages VoiceVox, chacun représentant un ou plusieurs styles de voix — Chaque personnage officiel de VoiceVox couvre en réalité un ensemble de styles de voix, pas une voix unique.

Sommaire 21

C'est quoi, VoiceVox ?

VoiceVox est une application de synthèse vocale (TTS) open source pensée pour le japonais, développée par Hiroshiba Kazuyuki. Le code source du moteur est hébergé sur GitHub sous VOICEVOX/voicevox et distribué sous licence MIT : tu peux télécharger le logiciel, l'utiliser, le modifier et l'intégrer dans d'autres projets sans payer de redevance.

Concrètement, VoiceVox se divise en deux blocs. Un moteur de synthèse vocale qui transforme du texte japonais en audio, et une interface graphique qui te permet de choisir la voix, de régler l'intonation, le débit, le pitch et les pauses, puis d'exporter le résultat en WAV. Le moteur est également exposé via une API HTTP locale, ce qui le rend facile à brancher dans d'autres outils : montage vidéo, générateurs de voix off, scripts, intégrations maison.

Le logiciel tourne sur Windows, macOS et Linux. Il fonctionne sans connexion, ce qui change tout si tu veux produire beaucoup d'audio, si ta connexion est instable, ou si tu préfères garder tes textes sur ta machine. Les voix sont distribuées séparément du moteur, via un installateur intégré : tu téléchargues celles qui t'intéressent, et tu peux en ajouter au fil du temps.

Une logique de personnages, pas de voix

La particularité qui fait la marque de VoiceVox, c'est son approche par personnages. Chaque voix officielle est incarnée par un personnage dessiné, avec un nom, un style visuel et une fiche d'univers. 四国めたん est par exemple présentée comme une étudiante du Tōhoku, ずんだもん comme un petit yōkai vert en forme de zunda mochi. Derrière chaque personnage se cachent plusieurs styles de voix : voix posée, voix joyeuse, voix chuchotée, voix narrative, etc. C'est ce système qui a permis à VoiceVox de devenir un phénomène culturel, et pas seulement un outil technique.

Histoire et développement de la TTS japonaise

Pour comprendre VoiceVox, il faut remonter un peu. La synthèse vocale au Japon n'est pas née avec le projet : elle existe depuis les années 2000 avec des logiciels comme VOICEROID (AH-Software, dès 2007) ou plus tard la gamme A.I.VOICE. Ces solutions sont propriétaires, payantes, et leurs voix sont commercialisées comme des produits à part entière. Elles ont familiarisé tout un public avec l'idée d'une voix de synthèse japonaise de qualité.

VoiceVox est né en 2020-2021 dans un contexte différent, où les modèles de synthèse vocale par deep learning étaient devenus suffisamment matures pour tourner sur une machine personnelle. Le créateur, Hiroshiba Kazuyuki, a combiné plusieurs briques open source existantes pour bâtir un moteur léger, multilingue côté code, mais réellement optimisé pour le japonais, avec une interface qui rend le réglage de la prosodie accessible à des non-spécialistes. Le projet a été publié sur GitHub et a très vite attiré des contributeurs : développeurs, illustrateurs, doubleurs amateurs, chercheurs.

La croissance a été rapide, et largement portée par la communauté. De nouveaux personnages ont été ajoutés, parfois financés par des campagnes participatives, parfois offerts par des doubleurs qui acceptent de distribuer leur voix sous des licences spécifiques. En parallèle, des intégrations sont apparues avec d'autres projets (A.I.VOICE, outils de sous-titrage, lecteurs de texte, générateurs vidéo), et le moteur sert désormais de socle à de nombreux autres logiciels japonais.

La technologie derrière VoiceVox

VoiceVox n'est pas un modèle unique de bout en bout : c'est une chaîne de traitement qui combine plusieurs briques, et c'est ce découpage qui explique à la fois sa flexibilité et sa qualité.

Du texte japonais au son

La première étape est l'analyse du texte. VoiceVox intègre un front-end textuel qui découpe la phrase, gère la lecture des kanji (leur furigana automatique), repère la ponctuation, les chiffres, les symboles et certaines conventions typographiques japonaises. Cette étape est cruciale : la même chaîne écrite en kanji peut être lue de plusieurs façons, et une erreur d'analyse se paie cash à l'oral. C'est aussi à ce niveau que se gèrent les pauses, l'intonation et les accents.

Vient ensuite le modèle acoustique, qui transforme la séquence phonétique en un mel-spectrogramme, une représentation visuelle du son. Le moteur s'appuie sur des architectures de type BERT ou VITS, proches des modèles qui ont popularisé la synthèse vocale par deep learning. C'est cette brique qui donne à chaque personnage sa couleur : hauteur moyenne, grain, rythme, façon de respirer.

Enfin, un vocodeur convertit le spectrogramme en forme d'onde audible, c'est-à-dire en fichier audio final. Le résultat est exportable en WAV 16 bits ou 24 bits, à la fréquence d'échantillonnage de ton choix (typiquement 24 kHz).

GPU, CPU, et configurations possibles

Le moteur peut tourner sur CPU, ce qui le rend utilisable sur des machines modestes ou d'anciens ordinateurs portables, au prix d'une génération plus lente. Sur une carte NVIDIA compatible CUDA, ou sur un Mac Apple Silicon via Metal, l'accélération GPU divise le temps de calcul par un facteur qui va de 5 à 20 selon le modèle. Pour un usage intensif ou de la synthèse en temps réel, le GPU est très fortement recommandé ; pour lire quelques phrases, le CPU suffit.

API HTTP et intégration

VoiceVox expose une API HTTP locale qui permet à d'autres logiciels d'envoyer du texte, de récupérer l'audio généré, et de choisir le personnage, le style et les paramètres. C'est cette interface qui rend le moteur si populaire auprès des développeurs : elle permet de l'intégrer dans des chaînes d'automatisation, des outils de doublage de vidéo, des bots Discord, des lecteurs d'écran personnalisés, et même des projets de recherche.

Capture de l'interface VoiceVox avec un texte en japonais prêt à être synthétisé en audio — L'interface de VoiceVox : choix du personnage, du style de voix, des paramètres prosodiques, et export en WAV.

Entraîner sa propre voix

L'un des points les plus intéressants du projet, c'est la possibilité d'entraîner un modèle sur ta propre voix ou sur celle d'un doubleur qui a donné son accord, à condition de disposer d'un corpus d'enregistrements propres et bien découpés. Cette ouverture a fait émerger un petit écosystème de voix personnalisées, mais elle pose aussi des questions éthiques sérieuses, sur lesquelles on reviendra plus loin.

Cas d'usage et applications

VoiceVox est devenu un outil de base dans plusieurs milieux créatifs japonais. Voici les usages les plus répandus.

YouTube et vidéos explicatives

De nombreuses chaînes YouTube japonaises utilisent VoiceVox comme voix off, que ce soit pour des vidéos d'analyse, des tutoriels, des vidéos d'ambiance ou des vidéos sans visage (face-less). Le moteur est particulièrement adapté aux formats longs : on peut préparer un script, ajuster l'intonation phrase par phrase, et générer un épisode complet en quelques minutes une fois le réglage stabilisé.

VTubers et streaming

VoiceVox est également utilisé en direct, souvent couplé à un avatar 2D ou 3D. Le principe : tu tapes un message dans un chat, et un personnage le lit à voix haute. C'est devenu un format en soi sur Twitch et sur des plateformes comme OPENREC. L'avantage par rapport à un modèle plus lourd, c'est la latence très faible en mode GPU, qui rend la conversation naturelle.

Jeux doujin et projets amateurs

Le milieu du doujin (créations indépendantes) s'est approprié VoiceVox pour doubler des jeux, des visual novels, des bandes-annonces de fan-projets. Pour un petit studio, c'est une alternative crédible au casting de doubleurs professionnels, à condition de bien choisir le personnage et le style de voix.

Apprentissage du japonais

Pour un apprenant, VoiceVox sert d'oreille de référence. Tu peux comparer comment une même phrase est lue par plusieurs voix, entendre l'effet d'un changement de pitch, écouter l'accent des personnages inspirés du Tōhoku ou du Kansai. Il ne remplace pas un contact avec des locuteurs natifs, mais il rend l'écoute plus concrète et plus active qu'un simple manuel.

Accessibilité et autres usages

Le moteur est aussi utilisé pour de la lecture audio longue (livres, articles, sous-titres), pour des bots Discord vocaux, pour des outils d'aide aux personnes malvoyantes, et pour générer rapidement des voix off temporaires dans des projets de recherche ou de production audio. La gratuité du moteur, l'absence de quota et le fonctionnement hors ligne en font un outil de choix dès qu'on a un volume d'audio important à produire.

Voix disponibles et licences

VoiceVox propose aujourd'hui un catalogue d'une dizaine de personnages officiels, avec plusieurs styles de voix par personnage. Quelques figures emblématiques : 四国めたん (Shikoku Metan) et ずんだもん (Zundamon) sont les deux voix les plus connues et les plus utilisées en ligne, 春日部つむぎ (Kasukabe Tsumugi) et 雨晴はう (Amehare Hau) occupent un registre plus posé, 波音リツ (Namine Ritsu) et 玄野武宏 (Kurono Takehiro) sont très présents en narration. Des voix plus récentes comme 白上虎太郎 (Shirakami Kotarou) ou 青山龍星 (Aoyama Ryusei) ont élargi la palette, et un support limité de l'anglais est apparu avec Lucy. Le détail des styles par personnage évolue à chaque release : mieux vaut vérifier sur le site officiel pour les chiffres exacts.

Deux couches de licence à bien distinguer

Pour utiliser VoiceVox dans un projet, il faut comprendre qu'il y a deux couches de licence distinctes. Le moteur VoiceVox (le code, l'interface, l'API) est distribué sous licence MIT, ce qui te laisse une grande liberté d'usage, y compris commerciale. En revanche, chaque modèle de voix a sa propre licence, qui dépend du doubleur qui a prêté sa voix et du personnage. Certaines voix sont utilisables sans condition, d'autres exigent une mention de crédit, d'autres encore restreignent l'usage commercial. Le site officiel liste ces conditions par personnage, et c'est l'endroit à consulter avant toute diffusion publique.

VoiceVox et l'avenir de la TTS japonaise

VoiceVox n'est pas seul sur le marché japonais. Les offres commerciales comme VOICEROID, A.I.VOICE ou VOICEPEAK conservent un avantage en termes de support professionnel et de voix haut de gamme, mais elles restent payantes et verrouillées par modèle. Le positionnement de VoiceVox, c'est précisément l'inverse : un moteur libre, gratuit, transparent, qui accepte d'être modifié et intégré.

Limites actuelles

Le projet reste centré sur le japonais. Le support d'autres langues est très limité, et la qualité des voix non japonaises n'atteint pas encore le niveau des moteurs spécialisés. La qualité dépend aussi beaucoup de la machine : sans GPU, la génération d'un long passage peut prendre du temps, et la latence en direct reste plus élevée qu'avec un modèle de streaming dédié.

Vers où ça va

Côté recherche, la synthèse vocale japonaise bouge vite. Les modèles à base de neural codecs (type VALL-E, SoundStorm, ou les variantes open source récentes) commencent à produire de la voix en temps réel avec un contrôle plus fin du timbre, de l'émotion et du style. VoiceVox intègre progressivement ces avancées, et la feuille de route du projet reste largement définie par sa communauté. De nouveaux personnages continuent d'être ajoutés, et le support d'autres langues s'améliore release après release.

Éthique, clonage et consentement

Le côté ouvert de VoiceVox pose aussi des questions sérieuses. Comme il est techniquement possible d'entraîner un modèle sur la voix d'une personne à partir d'enregistrements publics, le projet attire l'attention sur l'importance du consentement explicite des doubleurs, et sur la nécessité d'une divulgation claire quand une voix synthétique est utilisée. Plusieurs personnages officiels ont été publiés uniquement après accord du doubleur, parfois avec un contrat de licence précis. Pour un usage personnel ou amateur, le bon réflexe est de ne pas reproduire la voix d'une personne réelle sans son accord, et de signaler explicitement qu'un audio est synthétique quand il est diffusé publiquement.

Une pièce de l'écosystème, pas un produit isolé

Au fond, VoiceVox est devenu un point d'entrée dans l'écosystème japonais de l'IA vocale. Le moteur est un peu l'équivalent local d'un MediaPipe ou d'un ComfyUI : un projet open source, modulaire, qui sert de base à des dizaines d'outils en aval. Pour quelqu'un qui s'intéresse à la culture japonaise, à la création assistée par IA ou simplement à la qualité de la synthèse vocale moderne, c'est un excellent terrain d'observation. Et si tu veux tester sans rien installer, le site officiel propose une version de démonstration en ligne qui te laisse entendre plusieurs voix avant de décider lesquelles télécharger.

VoiceVox - Le Synthétiseur Vocal Japonais