J'ai créé ma propre voix de synthèse !

Par : Toucania team
Photo de profil

Résumé :

ElevenLabs est un outil spécialisé dans l’audio, allant de la création de voix de synthèse, à la transcription de fichier audio ou encore la création d’effet sonore (jusqu’à 30 secondes) à partir de prompt. La création de voix de synthèse se distingue par la facilité de création d’une voix à partir de fichier audio. On peut créer sa propre voix de synthèse à partir de 30 secondes d’audio (cependant il est fortement recommandé de donner le maximum de source audio possible afin d’avoir des résultats plus proches de la réalité et moins robotique). Il existe une version professionnelle de cette création de voix off mais il faut que la personne dont la voix lui appartient lise un texte pour prouver que l’on peut utiliser cette voix. Le TTS requiert juste de donner le texte que l’on veut générer et l’on peut influencer la vitesse globale ainsi que la « stylisation » de la voix pour paraître plus naturelle mais dès que l’on a du style, il y a des chances d’avoir des hallucinations. On a droit à 3 génération différentes du même texte à chaque fois que l’on utilise des tokens afin de changer la stylisation. Ce système de 3 générations apparait également dans les bruitages mais ils sont les 3 générés directement avec le prompt afin d’avoir le choix des 3. Il marche donc avec un système de token en fonction de la longueur du texte ou de ce que l’on souhaite générer et avec quel moteur (la version light prend 2X moins de token).

Besoins identifiés :

Créer une voix de synthèse à partir d'une voix réelle.

Outils IA utilisés :

Contexte :

Création de module e-learning