L’usage de la voix représente le futur des échanges entre l’homme et la machine. J’ai évoqué ce sujet à maintes reprises ces derniers temps, et la société ElevenLabs, spécialisée dans la voix générée par IA, a lancé un nouveau produit qui illustre encore mieux l’importance de la communication dans l’innovation.
L’intelligence artificielle conversationnelle d’ElevenLabs fonctionne comme un assistant vocal, conçu pour simuler une véritable conversation téléphonique, vous donnant l’impression d’échanger avec une personne physique.
Il offre une personnalisation totale, vous permettant de choisir, de créer ou même de reproduire la voix qu’il emploie. De plus, il est possible d’intégrer votre propre base de connaissances. Par exemple, si vous êtes un mentor en mathématiques, vous pouvez inclure des ressources pour la préparation au SAT.
Un des avantages principaux réside dans la possibilité de déterminer le modèle cérébral sous-jacent, également connu sous le nom de modèle de langage. Il vous est offert le choix parmi divers modèles disponibles chez OpenAI, Google ou Anthropic, ou même de mettre en œuvre un modèle sur mesure si vous êtes à la tête d’une entreprise.
Le fonctionnement de l’intelligence artificielle conversationnelle
Conversational AI is here.
Build AI agents that can speak in minutes with low latency, full configurability, and seamless scalability. pic.twitter.com/JqBlwVczdX
— ElevenLabs (@elevenlabsio) December 3, 2024
À la différence de ChatGPT Advanced Voice, ce n’est pas une technologie de synthèse vocale intégrée. Son fonctionnement rappelle celui de Gemini Live ou de MetaAI : vous énoncez vos mots, qui sont ensuite convertis en texte et transmis à l’intelligence artificielle. Cette dernière génère une réponse sous forme de texte, et ElevenLabs vocalise celle-ci à l’aide de ses modèles sonores déjà disponibles. L’ensemble se déroule avec une telle rapidité qu’on pourrait presque croire à une continuité de la conversation.
Afin d’atteindre cet objectif, l’équipe d’ingénieurs d’ElevenLabs a dû développer un modèle innovant de synthèse vocale sur mesure. Celui-ci devait avoir la capacité de convertir les paroles de l’utilisateur à une vitesse telle qu’elles restent invisibles à l’auditeur, tout en garantissant une intégration fluide de l’ensemble du système.
Grâce à l’intelligence artificielle dédiée aux conversations, ElevenLabs se positionne en tant que concurrent direct de la solution d’API en temps réel proposée par OpenAI. Ces modèles sont spécialement élaborés pour faciliter l’interaction vocale entre une entreprise ou une organisation et ses produits. Cela peut se manifester par un centre d’appels gérant des communications téléphoniques, ou encore par des applications moins classiques, telles que des solutions éducatives.
Une illustration d’un cas d’utilisation peut être un jouet destiné aux enfants, conçu pour fournir une assistance et des retours d’information d’une façon qui correspond à leur tranche d’âge.
Conception d’un assistant vocal
Tout utilisateur possédant un compte ElevenLabs a la possibilité de concevoir un agent de dialogue. Ce service inclut quatre modèles prédéfinis, chacun étant totalement modifiable selon les besoins.
Il y a tout d’abord un personnage de support nommé Eric, destiné à aider à résoudre divers problèmes. Ensuite, nous avons Matilda, la responsable de l’enseignement en mathématiques, et George, le guide de voyage qui possède des connaissances sur une grande partie des destinations à travers le globe. Enfin, un dernier personnage est un magicien du monde du jeu vidéo, qui se distingue par sa voix énigmatique.
Il est également possible de les concevoir depuis le début. J’ai testé cela avec un conseiller en développement personnel qui avait à sa disposition divers outils de coaching populaires, comme le suivi des comportements et l’élaboration d’objectifs. Il a recours à la mémoire flash Gemini 1.5, pratique pour son efficacité et son coût.
Faire une connexion avec l’agent vous coûtera 500 crédits par minute au cours de la phase de développement. L’offre de lancement inclut 30 000 crédits pour seulement 4 $ chaque mois.
Globalement, la mise en place est assez straightforward. Vous avez une grande liberté dans la manière dont vous le concevez, et vos agents seront visibles dans la barre latérale de votre compte ElevenLabs. De plus, il est possible d’importer des numéros de téléphone Twilio et de les relier à votre assistant vocal.
Dans un élan de créativité ludique, j’ai mis au point un assistant virtuel de service client baptisé Ryan, qui imite ma voix. Je suis curieux de savoir si mon père remarquera la supercherie lorsque je lui fournirai un numéro de téléphone, en lui affirmant qu’il s’agit de ma nouvelle ligne de travail et qu’il peut appeler pour toute assistance technique.