Comment améliorer la détection des voix de synthèse

En tant que société de création de bot, TALKR se doit de préserver les voix des appelants et d’imaginer la protection de la vie privée des personnes qui intéragissent avec le bot. Notre objectif : Mettre en lumière l’impact croissant que la technologie deepfake vocal dans certains domaines comme les élections, les faux appels de banques et proposer des solutions innovantes pour contrer cette menace émergente : Le spam Vocal indésirable et le démarchage abusif par téléphone. dailleurs la plateforme 33700 permet de lutter contre ce nouveau type d’appels intrusifs. (l’association AF2M est aussi impliquée dans cette démarche).

L’une des principales préoccupations soulevées de TALKR est de voir qu’il devient possible de frauder des voix afin de véhiculer des messages de type “Arnaque à la voix”.  l’utilisation malveillante de la technologie de clonage vocal permet de créer des enregistrements audio de haute qualité de personnes, souvent à leur insu, et de les utiliser à des fins de manipulation et de désinformation. Face au défi des pincalls, notre équipe chez TALKR a développé des solutions révolutionnaires pour lutter contre les deepfakes audio :

  1. Watermarker : Notre solution devra dans le futur utiliser un “filigrane invisible” qui s’attaque à l’utilisation malveillante des voix générées par l’IA en incorporant une fréquence inaudible dans les enregistrements audio et les Spams mobiles. Des recherches approfondies soutiennent l’efficacité de notre filigrane, permettant la traçabilité des données et renforçant ainsi la confiance dans l’authenticité des enregistrements. Les Speech to text (TTS) doivent se doter d’intelligence artificielle pour détecter des fausses voix mais surtout devront détecter les discours inadéquat des vendeurs virtuels peu scrupuleux.

  2. Vérification avec la biométrie vocale: Grâce au modèle avancé d’IA de détection des deepfakes proposé par Whispeack, nous offrons une précision de 98 % dans l’exposition des enregistrements audio deepfake surtout en cas de message douteux avec une voix fournie par les LLMs. Cette technologie de pointe permet de détecter rapidement les manipulations audio et de les signaler aux autorités compétentes. En effet, si une personne appelle sa banque, notre robot doit pouvoir vérifier qu’il s’agit bien d’un humain et non d’une machine qui tente de se faire passer pour un humain.

  3. Outils de détection gratuits : Pour renforcer la transparence et la lutte contre la désinformation, certaines entreprises mettent à disposition des outils gratuits comme les “Deepfake Detector”, permettant de vérifier rapidement l’authenticité des contenus audio largement diffusés. Ces outils permettent aux utilisateurs de s’assurer de la véracité des informations avant de les utiliser, contribuant ainsi à limiter la propagation de fausses nouvelles.

  4. Détection en temps réel pour Google Meet et Teams : Anticipant les nouvelles formes de menaces, certaines sociétés développent des solutions de détection des deepfakes en temps réel pour les plateformes de visioconférence telles que Google Meet, kizwork, Zoom et Teams. Cette fonctionnalité permet aux utilisateurs d’avoir un aperçu immédiat de l’authenticité des enregistrements audio, protégeant ainsi les conversations contre les tentatives d’espionnage et de manipulation.

Nous sommes conscients que la technologie deepfake représente un défi sans précédent pour la démocratie et la sécurité nationale. Chez TALKR, nous sommes déterminés à faire progresser la lutte contre cette menace en collaborant étroitement avec les secteurs privé et public. Nous croyons fermement que l’innovation doit être utilisée de manière responsable et éthique, et nous sommes prêts à jouer un rôle actif dans la protection de l’intégrité des données et de la société dans son ensemble.

intégration de elevenlabs dans les callbots de TALRK

L’intégration de la technologie de synthèse vocale d’ElevenLabs dans les callbots de TALKR représente une avancée notable dans le domaine de l’interaction client automatisée grâce au voice cloning. le choix d’incorporer ce type de technologie d’IA vise à transformer les échanges téléphoniques en expériences plus naturelles et engageantes au près des usagers, grâce à une qualité de voix synthétique sans précédent. ElevenLabs, pionnier dans la création de contenu audio avec des voix ultra-réalistes, apporte sa technologie avancée pour offrir une dimension nouvelle aux callbots en temps quasiment réel.

L’utilisation de ElevenLabs dans les projets de callbots avec TALKR nécessite une attention particulière à la qualité des voix humaines enregistrées toutefois. Ces dernières doivent être exemptes de bruit pour assurer une synthèse vocale claire et précise : on préfèrera une voix cristaline par exemple. La plateforme permet de personnaliser la voix selon plusieurs critères tels que le genre, le ton, et l’accent, le boost afin de mieux s’aligner sur les besoins spécifiques de chaque projet. Cette flexibilité est essentielle pour maintenir une communication fluide et naturelle au téléphone. Il est possible de régler de manière différente la tonalité pendant la conversation afin d’améliorer la perception coté utilisateur. Nous remarquons encore des temps de pose trop long coté elevenlabs sur la France car les serveurs sont plus distants.  il est donc impossible de passer en production certains cas d’usages début 2024 mais on espère que cela sera rendu possible dans les prochains mois. 

Cependant, il est important de noter que la vitesse de réponse et la qualité vocale peuvent varier en fonction de plusieurs facteurs, notamment la distance par rapport aux serveurs principaux, généralement situés aux États-Unis et la longeur de la phrase à transmettre. Ces variations peuvent influencer l’expérience utilisateur, surtout dans les interactions critiques où la rapidité de réponse est clé. en mars 2024 la réponse était encore très longue comparée à d’autres acteurs de renom qui travaillent aussi sur le TTS.

Pour maximiser l’efficacité de l’intégration d’ElevenLabs, il est conseillé de suivre une méthodologie rigoureuse. Cela inclut l’identification précise du type de voix nécessaire, la rédaction d’un script clair et concis, et l’ajustement minutieux des paramètres de voix pour chaque scénario. La capacité d’ElevenLabs à injecter dynamiquement des voix personnalisées dans TALKR ouvre des possibilités immenses pour enrichir l’interaction avec les callbots en maitrisant le text to speech de manière de plus en plus naturelle, rendant ces outils plus accessibles et captivants pour un large public.

Il est également essentiel de tester et d’ajuster le déploiement pour s’assurer que l’intégration répond aux attentes en termes de qualité de voix et de performance. Cette étape garantit que le projet final offre une expérience utilisateur optimale, renforçant ainsi l’engagement et l’accessibilité du contenu audio pour la personne au téléphone qui va intéragir.

L’intégration d’ElevenLabs dans les callbots de TALKR symbolise une étape importante vers l’amélioration de la communication automatisée virtuelle. En dépit des défis liés aux variations de la vitesse de réponse et de la qualité vocale, les avantages en termes d’engagement utilisateur et d’accessibilité sont indéniables. Cette collaboration entre ElevenLabs fournisseur incontesté des plus belles voix et TALKR illustre parfaitement la convergence entre l’innovation technologique et l’intelligence artificielle, offrant un aperçu prometteur de l’avenir de la synthèse vocale.