Comprendre la voix

Des technologies pour exploiter la voix au téléphone !

Comment choisir un bon moteur speech to text ? (STT)& un bon text to speech (TTS) ?

Comprendre le locuteur au téléphone dépend de nombreux paramètres : 

  • il est également conseillé de tester plusieurs solutions pour trouver celle qui convient le mieux à ses besoins spécifiques. Reconnaitre un nom, une ville une adresse ou un numéro par exemple. Parfois la qualité sonore est insuffisante, exemple en Voiture le signal peut être très dégradé avec une fréquence de mauvaise qualité. Cela complexifie la compréhension du texte. 

Le choix des moteurs dépend de 4 critères : 

La vitesse

    • La célérité rapide (moins de 1200 Ms). Certains Speech to text sont longs à répondre. cela peut crée une attente pour l’utilisateur.  les TTS en streaming permettent d’aller très vite.

La compréhension

    • pour le STT, le taux de compréhension est supérieur à 92% sur l’ensemble des mots. (WER).

La zone géographique

    • Nous utilisons des moteurs situés en France, en europe ou US En fonction de certains cas d’usages.  pour éviter d’envoyer des données hors europe

Le tarif

  • Certains moteurs sont plus chers que d’autres et vont impacter le cout total de l’agent. les tarifs sont variable, cela explique pourquoi nos concurrents sont 5 fois plus cher que nous !  

Nous choisissons toute type de moteurs

  • Nous pouvons utiliser  des moteurs STT français.  Uhlive, Voxist sont connus et réputés sur le marché
  • Nous utilisons aussi Deepgram, OpenAi, Elevenlabs ou d’autres moteurs américains connus pour leur robustesse et « accuracy ».

Moteurs TTS et STT américains🤖

    • Open Ai, Deepgram, elevenlabs, google proposent des modèles STT et S2S. ils sont performants mais les sdonnées partent hors europe. C’est délicat de les utiliser dans le secteur de la santé par exemple. ils sont très puissants et leurs tarifs sont variables. Les moteurs utilisent du LINEAR16

Bien choisir sont modèle

  • Pour choisir un bon logiciel de reconnaissance vocale, il est important de prendre en compte les critères suivants : la précision du texte généré, la prise en charge de plusieurs langues, la compatibilité avec différentes sources audio, la facilité d’utilisation et l’intégration avec d’autres outils de productivité.

Technologie / Rentrons dans le détail d’un moteur STT.

Avez-vous entendu parlé du Speechtimeout ?

API de flux en temps réel pour les voicebots Stream pour les voicebots, ou Stream Human to Bots, ou Stream H2B est un ensemble d’API permettant aux clients de créer une interaction entre un utilisateur final humain et un bot, par exemple pour créer une réponse vocale interactive (IVR) sur le téléphone, ou un voicebot au sein d’une application.

Deux protocoles sont disponibles pour accéder aux fonctionnalités de cette API : MRCP et WebSocket.

Ces protocoles diffèrent principalement (à part bien sûr la couche d’application) par la manière dont le client est authentifié, autorisé et par la nature de la charge utile (XML pour MRCP et JSON pour WebSocket). Au-delà de cela, les deux offrent le même ensemble de fonctionnalités. Certaines fonctions permettent d’écouter plus ou moins longtemps le signal sonore par exemple quand une personne dicte un numéro de colis et s’arrête au milieu de la phrase. cela évite la rupture de la conversation. Il s’agit du fameux SpeechTimeOut

Schéma d’un décodage de la voix

Reconnaitre une voix et voix Fake

La biométrie vocale, un avenir tout tracé !

Whispeak est une société spécialisée dans la biométrie vocale. Leur technologie de reconnaissance vocale permet d’authentifier les utilisateurs à partir de leur voix en temps réel, d’analyser leur comportement vocal pour détecter d’éventuelles fraudes et d’extraire des informations utiles pour les entreprises, telles que le sexe, l’âge et l’émotion.

TALKR IA Conversationnal IA agents