Hume AI, l’entreprise spécialisée dans les modèles vocaux empathiques, a récemment présenté une démonstration d’une collaboration entre la technologie de l’interface utilisateur d’Anthropic et la solution EVI (Empathetic Voice Interface) développée par Hume.
La vidéo diffusée par Hume présente une personne qui échange avec son écran d’ordinateur pour organiser une partie d’échecs sans l’aide du personnage de Hume.
Le système gère la disposition des pièces sur l’échiquier, propose à l’utilisateur de commencer la partie et, au fil du jeu, démontre une compréhension complète des pièces, de l’ordinateur et de la communication, tout en avançant à travers les trois premiers coups.
Tout cela s’accomplit sans que l’utilisateur n’ait besoin d’interagir – pas de clavier, de souris, ou autre type de liaison matérielle, hormis une interface vocale IA séduisante. Bien que l’idée de jouer aux échecs par commande vocale ne soit pas inédite, cette approche va bien au-delà.
De prime abord, la technologie utilisée pour cette démonstration semble être solidement établie aujourd’hui. Un des modèles, nommé Claude, est capable d’interagir avec l’ordinateur en « voyant » l’écran grâce à un apprentissage multimodal, ce qui lui permet d’activer des fonctions comme s’il pressait les touches du clavier.
Le système Hume convertit la parole en instructions écrites et les envoie à Claude, tout en transformant la réponse textuelle générée par l’IA de l’ordinateur en sons agréables pour l’auditeur.
« L’ajout de Claude au sein d’EVI a donné naissance à une véritable innovation. La maîtrise du langage naturel et le caractère de Claude viennent enrichir la capacité d’EVI à saisir les nuances de la communication et à faire preuve d’empathie. Cela permet à EVI de « reproduire » les réponses de Claude, produisant ainsi des échanges fluides et adaptés qui paraissent extrêmement humains », déclare Alan Cowen, cofondateur de Hume.
À première vue, cela paraît étonnamment facile, mais derrière cette démonstration ingénieuse se cache une complexité technologique considérable à chaque phase. L’interaction entre Claude et Hume a évolué sur une longue période, et certaines données demeurent impressionnantes.
Grâce aux modèles intégrés, plus de 2 millions de minutes de dialogues vocaux générés par l’intelligence artificielle ont été effectuées, entraînant une diminution de 10 % de la latence grâce à une optimisation efficace, tout en permettant une réduction significative des coûts de 80 %.
Une approche innovante pour interagir avec l’ordinateur
Les récentes innovations dans le domaine de la communication vocale assistée par ordinateur, comme l’option Advanced Voice d’OpenAI, Hume et la solution open source Whisper, dessinent un futur qui a été imaginé depuis longtemps par le cinéma américain.
C’est une fusion entre l’univers de Star Trek et celui des Jetsons, un futur sombre peuplé de théières dotées de la parole et d’imprimantes laser d’une sensualité surprenante. On désigne cela comme un avenir « centré sur la voix avant tout ».
Selon les propos de Cowen, « d’ici quelques années, l’intelligence artificielle vocale sera partout et constituera le principal vecteur d’échange entre l’humain et l’IA. »
En réunissant les mécanismes d’autocontrôle de Claude avec la réaction instantanée de la voix dynamique de Hume, une première vision des interactions futures entre les humains et les machines a été révélée.
Votre opinion sera influencée par votre perception actuelle de l’intelligence artificielle et de la place des êtres humains dans un univers où les voitures volantes restent encore une chimère.