Barge-in, détection de silence et tour de parole dans un agent vocal IA 2026

Q: Qu'est-ce que le barge-in dans un agent vocal IA ?

Le barge-in (ou interruption) est la capacité d'un agent vocal IA à arrêter immédiatement sa réponse audio quand l'appelant commence à parler pendant que l'agent parle. Sans barge-in, l'agent continue de parler même si l'utilisateur a dit 'stop' ou a posé une nouvelle question — ce qui donne une impression de robot sourd et frustre l'appelant. Avec un barge-in bien calibré, l'agent s'arrête en moins de 300 ms et traite la nouvelle parole de l'utilisateur comme une nouvelle intention. C'est l'un des facteurs les plus déterminants pour la naturalité perçue d'une conversation vocale IA.

Q: Qu'est-ce que la détection de silence (endpointing) dans un callbot ?

L'endpointing (ou détection de fin d'énoncé) est le mécanisme par lequel un agent vocal IA détecte que l'utilisateur a terminé de parler et que l'agent peut prendre la parole à son tour. Il repose sur la Voice Activity Detection (VAD) : un modèle acoustique détecte en temps réel la présence ou l'absence de parole dans le signal audio. Un silence de 500 à 800 ms après la parole de l'utilisateur déclenche généralement la fin de l'énoncé. Si ce seuil est trop court, l'agent coupe l'utilisateur avant qu'il ait fini ; trop long, la conversation semble lente et artificielle.

Q: Comment fonctionne la VAD (Voice Activity Detection) dans un agent vocal ?

La Voice Activity Detection (VAD) est un modèle acoustique léger qui analyse le signal audio en continu pour distinguer la parole humaine du silence et du bruit de fond. Les implémentations modernes (Silero VAD, WebRTC VAD, VAD propriétaires) fonctionnent sur des fenêtres de 10 à 30 ms et prennent une décision binaire : parole présente (1) ou absente (0). La VAD est distincte du STT : elle n'essaie pas de reconnaître les mots, elle détecte seulement si quelqu'un parle. Elle est le premier maillon de la chaîne de turn-taking et son calibrage conditionne directement la fluidité de la conversation.

Q: Quelle est la latence acceptable pour le barge-in dans un agent vocal IA ?

La latence de barge-in — le délai entre le début de la parole de l'utilisateur et l'arrêt du TTS de l'agent — doit être inférieure à 300 ms pour être perçue comme naturelle. Au-delà de 500 ms, l'utilisateur perçoit un délai notable. Au-delà de 800 ms, la conversation est vécue comme frustrante. Atteindre une latence de barge-in < 300 ms nécessite que la VAD tourne en local (sans appel réseau), que le signal de barge-in soit transmis directement à la couche TTS/audio sans passer par le LLM, et que l'architecture audio permette l'interruption immédiate du flux de synthèse vocale.

Q: Comment éviter les faux barge-in causés par le bruit de fond ou l'écho ?

Les faux barge-in sont causés principalement par trois sources : le bruit de fond (circulation, bureau open space), l'écho de la voix TTS qui revient dans le microphone (acoustic echo), et les backchannel vocaux de l'utilisateur ('hmm', 'ouais', 'd'accord') pendant que l'agent parle. Les solutions techniques : annulation d'écho acoustique (AEC) pour filtrer le signal TTS sortant du signal microphone entrant ; calibrage de seuil VAD en fonction du niveau de bruit ambiant mesuré en début d'appel ; délai de grâce de 150 ms après le début d'un signal détecté pour distinguer backchannels (courts) et vraies interruptions (durée > 200 ms).

Q: Qu'est-ce que le turn-taking dans une conversation vocale IA ?

Le turn-taking (gestion du tour de parole) est l'ensemble des mécanismes qui permettent à deux interlocuteurs — ici un humain et un agent IA — d'alterner la parole de manière fluide et naturelle. Dans une conversation humaine, le changement de tour est signalé par des indices prosodiques (baisse de ton, intonation conclusive), des pauses, et des indices sémantiques (fin de phrase interrogative). Un agent vocal IA doit reproduire ces mécanismes : détecter la fin d'un énoncé de l'utilisateur, prendre la parole sans délai perceptible, et accepter d'être interrompu à tout moment. Le turn-taking échoue quand l'agent coupe l'utilisateur trop tôt, tarde à répondre, ou ignore les interruptions.

Q: Comment gérer les silences intentionnels (réflexion) vs les fins d'énoncés dans un callbot ?

Distinguer un silence de réflexion (l'utilisateur cherche ses mots) d'une fin d'énoncé est l'un des défis les plus complexes du turn-taking. Les approches complémentaires : (1) seuils d'endpointing adaptatifs — appliquer un délai plus long (1 000 à 1 500 ms) après une phrase incomplète ou une question ouverte qui appelle une réponse longue ; (2) analyse sémantique partielle — un modèle léger analyse le dernier segment transcrit pour évaluer s'il constitue un énoncé complet ou une phrase en suspens ; (3) signaux prosodiques — détecter une intonation montante (question non terminée) pour allonger le délai d'attente. TALKR combine ces trois approches pour réduire le taux d'interruptions prématurées en dessous de 3 %.

Q: Quels sont les principaux paramètres à configurer pour le turn-taking d'un agent vocal IA ?

Les paramètres principaux du turn-taking à configurer pour un agent vocal IA sont : (1) seuil de détection de silence (endpointing timeout) — typiquement 500 à 800 ms, ajustable par scénario ; (2) seuil de barge-in — durée minimale de parole détectée avant de déclencher l'interruption (150 à 300 ms) ; (3) seuil VAD — niveau d'énergie acoustique minimum pour classifier 'parole présente' (à calibrer selon le bruit ambiant) ; (4) délai de grâce post-barge-in — temps accordé à l'utilisateur pour compléter son interruption avant que l'agent commence sa nouvelle réponse (300 à 500 ms) ; (5) timeout d'inactivité totale — durée de silence total après laquelle l'agent reprend l'initiative avec une phrase d'incitation (3 à 5 secondes).

Votre agent vocal répond correctement. Ses réponses sont pertinentes, sa voix est naturelle. Pourtant, vos utilisateurs le trouvent "robotique". Pourquoi ? Parce qu'il ne sait pas écouter au bon moment — ni s'arrêter quand il le faut.

La fluidité d'une conversation vocale IA ne dépend pas uniquement de la qualité du LLM ou de la voix de synthèse. Elle dépend en grande partie de mécanique de bas niveau souvent négligée : le barge-in (gestion des interruptions), la détection de fin d'énoncé (endpointing), la Voice Activity Detection (VAD) et la gestion du tour de parole (turn-taking). Ces quatre mécanismes sont ce qui différencie un callbot "supportable" d'un agent vocal réellement naturel.

Dans une conversation humaine, les tours de parole s'alternent de manière quasi-invisible, régis par des indices prosodiques, des pauses et des signaux non verbaux. Un agent vocal IA doit reproduire cette chorégraphie conversationnelle — ou risquer de frustrer l'appelant dès les premières secondes d'interaction. Ce guide technique explique comment ces mécanismes fonctionnent, pourquoi ils sont critiques, et comment les paramétrer correctement pour un agent en production.

À destination des développeurs d'agents vocaux, des tech leads, des architectes de solutions conversationnelles et des responsables produit callbot.

Le turn-taking : la mécanique invisible de toute conversation naturelle

Un agent vocal IA n'échoue pas sur les mots — il échoue sur les silences. Couper l'utilisateur trop tôt, attendre trop longtemps, ignorer une interruption : trois erreurs de turn-taking qui transforment une conversation en interrogatoire.

Le turn-taking est l'ensemble des mécanismes par lesquels deux interlocuteurs alternent les rôles de locuteur et d'auditeur. Dans une conversation humaine ordinaire, cette alternance est régie par des règles implicites : baisse de l'intonation en fin de phrase, pause légèrement plus longue, regard vers l'interlocuteur. Ces signaux indiquent "c'est ton tour de parler."

Un agent vocal IA ne dispose pas de ces indices visuels. Il doit reconstituer les signaux de tour de parole uniquement à partir du signal audio : présence ou absence de parole, durée des pauses, intonation. Cette tâche est structurellement difficile et détermine directement la qualité perçue de l'interaction.

Quatre défaillances de turn-taking dégradent systématiquement l'expérience utilisateur :

Coupure prématurée : l'agent prend la parole alors que l'utilisateur n'a pas terminé sa phrase. L'utilisateur doit répéter — frustration immédiate.
Délai excessif : l'agent attend trop longtemps avant de répondre. Le silence crée un malaise et l'impression que "quelque chose ne va pas".
Ignorance des interruptions : l'utilisateur essaie d'interrompre l'agent mais celui-ci continue de parler. L'utilisateur perd le contrôle de la conversation.
Parole simultanée : agent et utilisateur parlent en même temps, rendant la conversation incompréhensible pour les deux parties.

Chacun de ces échecs a une cause technique précise — et une solution technique précise.

Voice Activity Detection (VAD) : le fondement du turn-taking

La Voice Activity Detection (VAD) est le premier composant de la chaîne de turn-taking. C'est un modèle acoustique léger qui analyse le signal audio en temps réel — généralement sur des fenêtres de 10 à 30 ms — pour produire une décision binaire : parole présente ou absente.

La VAD est distincte du STT (Speech-to-Text). Elle ne reconnaît pas les mots — elle détecte seulement si quelqu'un est en train de parler. Cette distinction est cruciale : faire tourner le STT en continu serait coûteux en ressources et introduirait une latence inacceptable. La VAD est légère, rapide, et tourne idéalement en local sans appel réseau.

Les modèles VAD les plus utilisés en 2026

Trois implémentations dominent le marché des agents vocaux IA en production :

Modèle	Type	Latence	Points forts	Limites
Silero VAD	Open source (PyTorch/ONNX)	~10 ms	Très précis, robuste au bruit, léger (1 MB)	Nécessite GPU/NPU pour la prod haute charge
WebRTC VAD	Open source (C)	~5 ms	Ultra-léger, intégré dans WebRTC natif	Moins précis sur les voix douces ou très bruyantes
VAD propriétaires	API cloud (Deepgram, Assembly AI…)	20–50 ms	Intégré dans le pipeline STT, sans maintenance	Dépendance cloud, latence réseau ajoutée

Calibrer le seuil VAD selon l'environnement d'appel

Le seuil VAD — le niveau d'énergie acoustique minimum pour classifier un signal comme "parole" — doit être calibré selon l'environnement d'appel attendu. Un seuil trop bas déclenche de faux positifs sur le bruit de fond (ventilation, circulation, bureau open space). Un seuil trop haut manque les voix douces ou les phonèmes fricatifs ("s", "f", "ch") qui ont naturellement moins d'énergie.

Bonne pratique : mesurer le niveau de bruit ambiant pendant les 500 premières millisecondes de l'appel (avant que l'utilisateur parle) et ajuster dynamiquement le seuil VAD en fonction de ce bruit de fond mesuré. Cette calibration adaptative réduit les faux positifs de 40 à 60 % dans les environnements bruités.

L'endpointing : détecter la fin d'un énoncé sans couper l'utilisateur

L'endpointing est l'art de savoir quand l'utilisateur a vraiment fini de parler. Trop tôt, vous le coupez. Trop tard, la conversation traîne. Il n'y a pas de réglage universel — seulement un réglage adapté à votre contexte.

L'endpointing (détection de fin d'énoncé) est la décision que prend l'agent : "l'utilisateur a fini de parler, je peux répondre." Cette décision se base principalement sur la durée du silence détecté par la VAD après la dernière parole de l'utilisateur.

Le paramètre clé : l'endpointing timeout

L'endpointing timeout est le délai de silence, mesuré après la détection de la dernière parole, au-delà duquel l'agent considère que l'énoncé est terminé. Ce paramètre est le plus impactant — et le plus délicat à régler :

Délai endpointing	Comportement	Impact utilisateur
200–300 ms	Très réactif	Coupe les utilisateurs qui réfléchissent — frustrant pour les locuteurs lents ou hésitants
500–700 ms	Équilibre standard	Confortable pour la majorité des utilisateurs sur les requêtes courtes
800–1 200 ms	Conservateur	Adapté aux requêtes longues, aux personnes âgées, aux accents forts
> 1 500 ms	Trop lent	La conversation semble "en retard" — inconfortable pour tous les profils

Endpointing adaptatif par scénario conversationnel

Un seul seuil d'endpointing ne convient pas à tous les scénarios. La pratique recommandée en 2026 est l'endpointing adaptatif : le timeout varie selon le contexte de la conversation.

Exemples de règles adaptatives : appliquer un timeout plus court (500 ms) sur les réponses courtes attendues (oui/non, choix dans un menu) ; appliquer un timeout plus long (900 ms) après une question ouverte qui appelle une réponse longue ("Pouvez-vous m'expliquer votre problème ?") ; allonger le timeout si la transcription partielle se termine par une conjonction ou un mot de liaison ("et", "mais", "parce que") — signaux linguistiques que la phrase n'est pas terminée.

Cette logique d'endpointing adaptatif réduit le taux de coupures prématurées de 25 à 40 % par rapport à un timeout fixe, sans dégrader la fluidité sur les requêtes courtes.

Le barge-in : laisser l'utilisateur interrompre l'agent à tout moment

Le barge-in est la capacité de l'agent à interrompre immédiatement sa propre réponse audio quand l'utilisateur commence à parler. C'est le mécanisme qui donne à l'utilisateur le sentiment de contrôle sur la conversation — et son absence est l'une des sources les plus fréquentes de frustration avec les agents vocaux "robotiques".

Architecture technique du barge-in

Implémenter un barge-in efficace (latence < 300 ms) nécessite une architecture spécifique :

VAD en local, en continu : la détection de parole tourne en permanence, même pendant que l'agent parle. Elle ne s'arrête pas pendant la réponse TTS.
Signal de barge-in direct vers la couche audio : quand la VAD détecte une parole, le signal d'interruption est transmis directement au module TTS/audio — sans passer par le LLM, ce qui éviterait d'ajouter 200 à 500 ms de latence supplémentaire.
Annulation d'écho acoustique (AEC) : fondamentale pour éviter que la VAD ne détecte la voix TTS de l'agent elle-même comme une interruption. L'AEC filtre le signal sortant du signal entrant pour isoler uniquement la parole de l'utilisateur.
Délai de grâce (grace period) : après détection du barge-in, un délai de 150 à 300 ms avant de lancer le STT évite de traiter un backchanneling sonore ("hmm", "ouais") comme une nouvelle intention conversationnelle complète.

Faux barge-in : causes et solutions

Les faux barge-in interrompent l'agent sans intention de l'utilisateur. Trois causes principales :

Bruit de fond intense : environnement de bureau, rue, voiture. Solution : calibration dynamique du seuil VAD mesurée en début d'appel (voir section VAD).
Backchannel vocaux : "hmm", "oui", "d'accord" prononcés pendant que l'agent parle — signaux d'écoute active, pas d'interruptions réelles. Solution : délai de grâce et seuil de durée minimum (parole > 200 ms pour déclencher le barge-in).
Écho acoustique : la voix TTS de l'agent revient dans le microphone. Solution : annulation d'écho acoustique (AEC) côté serveur ou côté terminal.

Un faux barge-in toutes les 20 conversations, c'est 5 % d'interactions dégradées. À 5 000 appels par jour, c'est 250 conversations frustrantes quotidiennes évitables.

Gérer les silences complexes : réflexion, hésitation et inactivité totale

Tous les silences ne sont pas des fins d'énoncés. Un utilisateur peut marquer une pause pour réfléchir au milieu d'une phrase, hésiter sur le mot exact à utiliser, ou simplement s'être distrait. Un agent vocal IA qui coupe ces silences systématiquement est perçu comme impoli et impatient.

Différencier les types de silence

Trois types de silence coexistent dans une conversation vocale, avec des comportements attendus différents :

Type de silence	Durée typique	Cause	Comportement agent recommandé
Pause de réflexion	500 ms – 2 s	L'utilisateur cherche ses mots	Attendre — ne pas prendre la parole
Fin d'énoncé	500 – 800 ms (stable)	L'énoncé est terminé	Prendre la parole (répondre)
Inactivité totale	> 3 s	Distraction, problème technique, hésitation profonde	Reprendre l'initiative ("Êtes-vous toujours là ?")

Indices linguistiques pour anticiper l'endpointing

L'analyse du contenu partiel de la transcription (streaming ASR) enrichit la décision d'endpointing au-delà du seul signal acoustique. Plusieurs indices linguistiques signalent qu'un énoncé est probablement incomplet :

La phrase se termine par une conjonction de coordination ("et", "mais", "ou", "parce que")
La phrase contient une question ouverte non clôturée ("je voulais savoir si…")
La transcription partielle est sémantiquement incomplète (sujet sans verbe, proposition subordonnée sans principale)
L'intonation prosodique est montante (détectable via analyse F0 du signal audio)

Un modèle de scoring léger (quelques ms d'inférence) peut combiner ces signaux pour décider d'allonger dynamiquement le timeout d'endpointing, plutôt que de se fier uniquement à la durée du silence.

Timeout d'inactivité totale et reprise d'initiative

Quand l'utilisateur ne parle pas pendant plus de 3 à 5 secondes, l'agent ne doit pas rester en silence indéfini. Une reprise d'initiative — "Je suis toujours là, je vous écoute" ou "Avez-vous d'autres questions ?" — relance la conversation et évite la déconnexion. Le timeout d'inactivité totale est distinct du timeout d'endpointing : il doit être significativement plus long (3 à 8 secondes selon le contexte) pour ne pas interrompre les vraies pauses de réflexion.

Paramétrage complet du turn-taking : récapitulatif des variables clés

Un agent vocal IA en production expose généralement sept paramètres de turn-taking configurables. Voici les valeurs recommandées et leurs plages de tolérance :

Paramètre	Valeur recommandée	Plage	Impact si mal calibré
Seuil énergie VAD	Adaptatif (mesuré en début d'appel)	-30 à -20 dBFS	Faux positifs (bruit) ou faux négatifs (voix douces)
Endpointing timeout (standard)	600 ms	400 – 900 ms	Coupures prématurées ou conversations lentes
Endpointing timeout (réponse longue)	1 000 ms	800 – 1 500 ms	Idem, amplifié sur les requêtes complexes
Seuil durée barge-in	200 ms	150 – 350 ms	Faux barge-in (trop court) ou ignorance des interruptions (trop long)
Latence barge-in (arrêt TTS)	< 300 ms	150 – 500 ms	Impression de robot sourd au-delà de 500 ms
Délai de grâce post-barge-in	200 ms	100 – 400 ms	Backchannels traités comme requêtes si trop court
Timeout inactivité totale	4 s	3 – 8 s	Déconnexion silencieuse ou reprise trop agressive

Tester et affiner le turn-taking en conditions réelles

Ces valeurs sont des points de départ — non des vérités universelles. Le paramétrage optimal dépend du profil de vos appelants (âge, accent, environnement d'appel), du type de scénario (réponses courtes vs longues), et du codec téléphonique utilisé (G.711 compresse le signal audio et peut affecter la détection VAD).

Méthode recommandée : déployer avec les paramètres standard, enregistrer et annoter 100 appels réels, identifier les occurrences de coupures prématurées (endpointing trop court) et d'interruptions manquées (barge-in trop lent), puis ajuster les paramètres en conséquence. Relancer un cycle d'annotation tous les 500 appels pour détecter les dérives.

Pourquoi le turn-taking est un avantage concurrentiel, pas un détail technique

Le turn-taking est souvent traité comme un paramètre de bas niveau — quelques millisecondes à régler une fois au déploiement. En réalité, c'est l'un des déterminants les plus puissants du CSAT et du taux d'abandon des agents vocaux IA.

Une étude interne sur les agents TALKR déployés en production montre qu'une amélioration du barge-in (réduction de la latence de 500 ms à 250 ms) réduit le taux d'abandon des appels de 12 % et améliore le CSAT de 8 points — sans aucun changement au LLM, aux réponses, ou à la voix de synthèse. Le contenu est identique. La mécanique conversationnelle fait toute la différence.

Les utilisateurs ne verbalisent pas "votre barge-in est trop lent". Ils disent "votre agent ne m'écoute pas" ou "c'est pénible de parler avec lui". Ces signaux d'insatisfaction cachent très souvent des problèmes de turn-taking, pas de LLM.

Investir dans la qualité du turn-taking — VAD précise, endpointing adaptatif, barge-in < 300 ms, gestion des silences complexes — est l'un des retours sur investissement les plus rapides dans l'amélioration d'un agent vocal IA en production.

TALKR gère le turn-taking pour vous

TALKR intègre nativement une VAD adaptative, un barge-in < 250 ms et un endpointing multi-critères dans tous ses agents vocaux. Nos clients obtiennent des conversations naturelles dès le jour 1 — sans configuration manuelle de dizaines de paramètres.

Découvrir la plateforme TALKR Calculer votre ROI

Questions fréquentes

Qu'est-ce que le barge-in dans un agent vocal IA ?

Le barge-in est la capacité d'un agent vocal IA à interrompre immédiatement sa réponse audio quand l'appelant commence à parler. Sans barge-in, l'agent continue de parler même si l'utilisateur a dit "stop" ou a posé une nouvelle question, donnant l'impression d'un robot sourd. Avec un barge-in bien calibré (< 300 ms), l'agent s'arrête immédiatement et traite la nouvelle parole de l'utilisateur. C'est l'un des facteurs les plus déterminants pour la naturalité perçue d'une conversation vocale IA.

Qu'est-ce que la détection de silence (endpointing) dans un callbot ?

L'endpointing est le mécanisme par lequel un agent vocal IA détecte que l'utilisateur a terminé de parler. Il repose sur la VAD : un modèle acoustique détecte en temps réel l'absence de parole. Un silence de 500 à 800 ms après la parole de l'utilisateur déclenche généralement la fin de l'énoncé. Si ce seuil est trop court, l'agent coupe l'utilisateur ; trop long, la conversation semble lente et artificielle.

Comment fonctionne la VAD (Voice Activity Detection) dans un agent vocal ?

La VAD est un modèle acoustique léger qui analyse le signal audio en continu sur des fenêtres de 10 à 30 ms pour distinguer la parole humaine du silence et du bruit de fond. Elle produit une décision binaire : parole présente ou absente. La VAD est distincte du STT : elle ne reconnaît pas les mots, elle détecte seulement si quelqu'un parle. C'est le premier maillon de la chaîne de turn-taking, et son calibrage conditionne directement la fluidité de la conversation.

Quelle est la latence acceptable pour le barge-in dans un agent vocal IA ?

La latence de barge-in doit être inférieure à 300 ms pour être perçue comme naturelle. Au-delà de 500 ms, l'utilisateur perçoit un délai notable. Au-delà de 800 ms, la conversation est vécue comme frustrante. Atteindre une latence < 300 ms nécessite une VAD locale (sans appel réseau) et un signal de barge-in transmis directement à la couche audio sans passer par le LLM.

Comment éviter les faux barge-in causés par le bruit de fond ou l'écho ?

Les faux barge-in sont causés par le bruit de fond, l'écho de la voix TTS (acoustic echo), et les backchannel vocaux ("hmm", "ouais"). Les solutions : annulation d'écho acoustique (AEC) pour filtrer le signal TTS sortant ; calibrage dynamique du seuil VAD mesuré en début d'appel ; délai de grâce de 150 ms pour distinguer backchannels (courts) et vraies interruptions (durée > 200 ms).

Qu'est-ce que le turn-taking dans une conversation vocale IA ?

Le turn-taking est l'ensemble des mécanismes qui permettent à un humain et à un agent IA d'alterner la parole de manière fluide. Il échoue quand l'agent coupe l'utilisateur trop tôt, tarde à répondre, ou ignore les interruptions. Un turn-taking bien calibré est la différence entre un agent "robotique" et un agent naturel — indépendamment de la qualité du LLM ou de la voix de synthèse.

Comment gérer les silences intentionnels (réflexion) vs les fins d'énoncés ?

Distinguer une pause de réflexion d'une fin d'énoncé requiert trois approches complémentaires : seuils d'endpointing adaptatifs (plus longs après une question ouverte) ; analyse sémantique partielle de la transcription en streaming pour détecter une phrase incomplète ; et analyse prosodique pour détecter une intonation montante (phrase non terminée). TALKR combine ces trois approches pour réduire le taux d'interruptions prématurées en dessous de 3 %.

Quels sont les principaux paramètres à configurer pour le turn-taking d'un agent vocal IA ?

Les sept paramètres principaux : seuil énergie VAD (adaptatif), endpointing timeout standard (600 ms), endpointing timeout réponse longue (1 000 ms), seuil durée barge-in (200 ms), latence arrêt TTS (< 300 ms), délai de grâce post-barge-in (200 ms), et timeout inactivité totale (4 s). Ces valeurs sont des points de départ à affiner selon le profil de vos appelants et votre scénario conversationnel.

Barge-in, détection de silence et gestion du tour de parole dans un agent vocal IA : guide technique 2026