Comment bien choisir un speech to text pour son Callbot
Un outil de reconnaissance vocale (SPEECH TO TEXT) ou TTS est une application qui utilise des algorithmes de reconnaissance vocale. Cela permet d’identifier le language et le retranscrire en texte dans la langue du locuteu. Voici une liste détaillée des meilleurs logiciels de reconnaissance vocale et vocale. Grâce à La reconnaissance vocale des logiciels basée sur l’intelligence artificielle et des réseaux de neurones cela permet de traduire des phrases vocales au format texte avec une précision qui s’approche des 95% voir plus. Grâce à certains TTS les utilisateurs ont la possibilité de transcrire des conversation vocales de manière efficace en temps réel. Par ailleurs,
Les utilisateurs n’ont qu’à dicter les notes et le texte apparaît sur l’écran avec une grande précision. On peut les envoyer directement vers un robot qui va analyser le texte pour le comprendre afin de pouvoir exécuter des actions en temps réel. Il faut savoir que la retranscription d’un flux audio va dépendre de la qualité sonore de l’enregistrement et du bruit ambiant. Une personne en voiture ou dans un environnement plus bruyant peut altérer la compréhension des mots. La compressions du flux audio est à 8Khz ce qui va dégrader la qualité de la voix. Cependant en important des listes de mots clés spécifique lié à un corpus métier car cela permet d’améliorer la compréhension globale. les Apis du traitement de la parole s’améliorent d’années en année
Comment cela fonctionne ?
Le fonctionne du processus de transcription vocal est théoriquement assez facile. En réalité c’est déjà beaucoup plus compliqué à mettre en oeuvre. Le logiciel commence par transformer le texte en une suite de phonèmes qui permettent de définir les sons qui sont associés aux phrases dicées. Ceci se fait via la connaissance orthographique des mots mais aussi du sens de la grammaire. Le logiciel doit pouvoir faire la différence entre les mots, des verbes, de sujets pour avoir une idée de leur prononciation. Le logiciel va ensuite établir intonation, rythme et l’intensité à donner à la lecture en ajoutant des virgules et des points.
Grâce à la voix il est possible de détecter d’autres informations que le texte. Cela permet d’analyser un discours audio afin d’en extraire des informations telles que le sexe, l’âge, les émotions du locuteur, etc. Et grâce au Speech Diarization: cela permet d’identifier et de différencier les différents locuteurs parlant dans le même audio. On différencie des accents, des spécificités, des fréquences vocales. Nous avons sélectionné certains fournisseurs que nous avons testés pour notre robot et les résultats sont variables en fonction des usescases.
Liste non exhaustive des moteurs STT
AWS Transcribe API
Bertin
Nuance
allomedia
Kaldi
Microsoft Azure Services
IBM Watson
Rev.ai
Assembly AI
Deepgramm
Otter
Le Voicelab
Authot
Linagora
Google Cloud Platform
Que faut il retenir pour choisir efficacement un bon STT
Les STT ne sont pas équivalents en fonction des uses cases et répondent plus ou moins bien et il est parfois utile d’utiliser deux api en fonction des phrases à tester. Le tarif est aussi à prendre en compte car les tarifs sont variables. Le temps pour entrainer les phrases peut avoir un impact aussi. Un point essentiel concerne la privacy : Certaines données peuvent être envoyées en dehors de Europe et certains projets sont parfois restreint sur une zone géographique et ne fonctionnent pas on premise.
Notre conseil : Commencer par une solution généraliste puis ensuite, choisir une solution plus spécifique. En fonction du projet et vérifier que celle-ci est compatible avec la problématique du client. Les solutions Open sources nous paraissent les moins cher pour des gros volumes mais demandent de l’entrainement