Votre agent vocal IA est prêt. Le LLM répond brillamment. Le TTS est naturel. Il reste un obstacle que 80 % des équipes sous-estiment : le faire sonner sur votre numéro de téléphone.

L'intégration téléphonique d'un agent vocal IA est la couche la moins glamour — et pourtant la plus critique — d'un déploiement réussi. C'est ici que les appels arrivent ou n'arrivent pas. Que la qualité audio dégrade la transcription STT. Que la latence du réseau s'accumule avec celle du LLM. Que votre ACD existant doit apprendre à cohabiter avec un interlocuteur qui n'est pas humain.

Ce guide détaille l'architecture technique complète d'une intégration téléphonie-IA : du SIP trunk à la PSTN, des codecs audio au CTI, jusqu'aux plateformes CCaaS comme Genesys, Twilio Flex ou Amazon Connect. Il s'adresse aux responsables techniques, architectes télécom et équipes DevOps qui pilotent le déploiement d'agents vocaux en production.

Architecture d'une intégration téléphonique pour agent vocal IA

Un agent vocal IA n'est pas un SVI amélioré. Son intégration téléphonique ne peut pas être traitée comme un simple branchement DECT sur un IPBX.

La chaîne technique d'un appel traité par un agent vocal IA implique six couches distinctes, chacune avec ses propres contraintes de latence et de fiabilité :

  1. Réseau PSTN / VoIP entrant — l'appelant compose un numéro. Le signal transite par le réseau téléphonique public (PSTN) ou directement en VoIP.
  2. Opérateur SIP / trunk — l'opérateur reçoit l'appel et l'achemine via un SIP trunk vers votre infrastructure.
  3. Passerelle media (media gateway) — reçoit les flux SIP (signalisation) et RTP (audio), les décode et les achemine vers le moteur de l'agent IA.
  4. Pipeline STT → LLM → TTS — le cœur de l'agent : transcription de la parole, génération de la réponse, synthèse vocale.
  5. Retour audio vers l'appelant — le flux audio TTS est réinjecté dans le flux RTP et remonté vers l'appelant via le même SIP trunk.
  6. CTI / intégration métier — en parallèle, le système CTI enrichit le contexte de l'IA (données CRM, historique) et orchestre les transferts vers agents humains.

Chaque couche ajoute de la latence. Un monitoring par couche est indispensable — voir notre guide sur le monitoring des agents vocaux IA en production.

SIP trunk : le pont entre votre agent IA et le réseau téléphonique

Le SIP trunk (Session Initiation Protocol) est le protocole standard qui connecte votre infrastructure VoIP au réseau téléphonique public. C'est lui qui permet à votre agent vocal IA d'être joignable depuis n'importe quel téléphone fixe ou mobile en France et à l'international.

SIP trunk vs hébergement téléphonique opérateur

Deux modèles coexistent pour connecter un agent vocal IA à la téléphonie :

SIP trunk direct : vous gérez votre propre infrastructure SIP (Asterisk, FreeSWITCH, Kamailio) et vous raccordez à un opérateur SIP agréé ARCEP (Orange, SFR Business, Bouygues, OVHcloud Telecom, Telnyx, Twilio). Vous avez le contrôle total — codec, routage, failover — mais vous assumez la responsabilité opérationnelle de la couche téléphonie.

SIP trunk managé : l'éditeur de votre solution d'agent vocal (comme TALKR) gère le SIP trunk, les numéros DDI, la haute disponibilité et la qualité de service. Vous bénéficiez d'une intégration clé en main sans compétence télécoms interne requise.

Dimensionner le SIP trunk

Un SIP trunk se dimensionne en canaux simultanés. Un agent vocal IA pouvant traiter des milliers d'appels en parallèle (contrairement à un agent humain), le trunk doit être dimensionné pour absorber les pics sans file d'attente. La règle pratique : prévoir 20 % de capacité au-delà du pic de charge observé, avec un mécanisme d'overflow vers une file d'attente ou un message d'information si le seuil est dépassé.

Volume d'appels journaliers Canaux SIP recommandés Redondance
Jusqu'à 500 appels/jour 10 à 20 canaux 1 trunk secondaire conseillé
500 à 5 000 appels/jour 20 à 100 canaux Dual trunk, opérateurs différents
5 000 à 50 000 appels/jour 100 à 500 canaux Multi-trunk, load balancing actif
Plus de 50 000 appels/jour 500+ canaux, architecture distribuée Geo-redondance obligatoire

WebRTC pour agents vocaux IA : cas d'usage et limites

WebRTC est la voie rapide pour déployer un agent vocal IA sur un site web. Le SIP trunk est la voie professionnelle pour un déploiement en centre de contact.

Le WebRTC (Web Real-Time Communication) permet d'établir des communications audio directement dans un navigateur, sans plugin ni application. Pour les agents vocaux IA, c'est un canal d'intégration distinct du SIP trunk, avec ses propres avantages et contraintes.

Quand choisir WebRTC

Le WebRTC est le bon choix pour trois scénarios précis : le click-to-call depuis un site web ou une application mobile (l'utilisateur initie l'appel depuis son navigateur) ; les démonstrations et POC où la rapidité de déploiement prime sur l'industrialisation ; et les cas d'usage où l'appelant est toujours sur un support digital (espace client web, application RH, portail e-commerce). Dans ces contextes, le WebRTC offre une latence souvent inférieure au SIP (pas de traversée PSTN) et une qualité audio supérieure avec le codec Opus.

Les limites du WebRTC en production B2B

Le WebRTC présente des limites structurelles pour un déploiement centre de contact massif. La traversée NAT et les firewalls d'entreprise requièrent des serveurs TURN/STUN correctement configurés — source fréquente d'échecs en production. La gestion du failover et de la haute disponibilité est plus complexe qu'avec un SIP trunk opérateur. L'interopérabilité avec les IPBX et ACD existants est limitée — la majorité des équipements téléphoniques d'entreprise ne parlent pas WebRTC nativement. Pour un agent vocal IA destiné à des appels entrants depuis n'importe quel téléphone (fixe, mobile, étranger), le SIP trunk reste l'architecture de référence.

Codecs audio : l'impact direct sur la qualité de transcription STT

Le codec audio est le premier déterminant de la qualité de transcription STT — et donc de l'ensemble des performances de l'agent vocal. Un codec de mauvaise qualité dégrade le signal audio avant même qu'il atteigne le moteur STT. Ce problème est systématiquement sous-estimé lors du déploiement initial.

Codec Bande passante Débit Impact STT Recommandation
G.711 µ-law / A-law 0,3 – 3,4 kHz 64 kbps Moyen — voix coupées sur les consonnes sibilantes Fallback universel uniquement
G.722 0,05 – 7 kHz 64 kbps Bon — +15 à 25 % de précision STT vs G.711 ⭐ Recommandé en priorité
G.729 0,3 – 3,4 kHz 8 kbps Mauvais — compression forte, artefacts STT À éviter absolument
Opus 0,05 – 20 kHz 6 – 510 kbps Excellent — qualité HD, optimal pour STT neuronal ⭐⭐ Idéal en WebRTC

La négociation du codec se fait dans le SDP (Session Description Protocol) de la signalisation SIP. Vérifiez systématiquement dans vos logs SIP quel codec est effectivement négocié entre votre trunk et votre media gateway — la priorité déclarée n'est pas toujours respectée par tous les opérateurs.

CTI : coupler la téléphonie à vos systèmes métiers

Le CTI (Computer Telephony Integration) désigne l'ensemble des protocoles et APIs qui permettent à votre infrastructure téléphonique de communiquer en temps réel avec vos systèmes d'information. Pour un agent vocal IA, le CTI est le mécanisme qui transforme un appel entrant anonyme en une interaction contextualisée.

Enrichissement contexte avant décrochage

Dès la réception du signal d'appel SIP (avant même que l'audio démarre), le CTI peut identifier l'appelant par son numéro CLI (Calling Line Identification), interroger le CRM pour récupérer son profil et ses interactions récentes, et injecter ces données dans le contexte de l'agent IA. Résultat : l'agent commence la conversation en sachant qui appelle, pourquoi il a probablement appelé, et quel est son statut client — sans que l'appelant ait à se réidentifier. Ce mécanisme réduit l'Average Handle Time (AHT) de 20 à 35 % selon les déploiements.

Screen pop sur transfert vers agent humain

Lors d'un transfert chaud (warm handoff) vers un conseiller humain, le CTI déclenche un screen pop sur le poste du conseiller : une fiche récapitulative de l'appel IA s'affiche automatiquement avec le résumé de la conversation, l'intention détectée, les données CRM récupérées et les actions déjà effectuées par l'IA. Le conseiller reprend la conversation en sachant exactement où l'IA s'est arrêtée — sans refaire recommencer l'appelant depuis le début. Pour approfondir, voir notre guide sur le warm handoff et l'escalade intelligente.

Protocoles CTI principaux

Les protocoles CTI varient selon l'infrastructure téléphonique : TAPI (Windows, intégration Microsoft Teams) ; CSTA (standard ECMA, utilisé par Avaya, Siemens) ; JTAPI (Java, historiquement Cisco) ; et les APIs REST/webhooks des plateformes CCaaS modernes (Twilio, Genesys, Amazon Connect, Vonage). Pour les nouveaux déploiements, les APIs REST/webhooks sont le standard recommandé — ils sont indépendants du protocole téléphonique sous-jacent et s'intègrent facilement dans une architecture microservices.

Intégration avec les plateformes CCaaS : Genesys, Amazon Connect, Twilio Flex

La majorité des centres de contact disposent déjà d'une plateforme CCaaS. L'enjeu en 2026 n'est plus de choisir entre IA et CCaaS — c'est d'intégrer les deux.

Les grandes plateformes CCaaS ont toutes développé des mécanismes d'intégration pour les agents vocaux IA tiers. Les modèles d'intégration diffèrent selon les plateformes.

Modèle 1 : bot tiers via SIP transfer

C'est le modèle le plus universel. L'ACD (Automatic Call Distributor) de votre CCaaS reçoit l'appel, l'achemine dans son flux (IVR, qualification), puis effectue un SIP transfer vers l'agent vocal IA tiers pour la partie conversation intelligente. L'agent IA traite l'appel et peut re-transférer vers le CCaaS pour l'escalade humaine. Ce modèle fonctionne avec toutes les plateformes CCaaS (Genesys, Avaya, Cisco, Mitel) et préserve la logique de routage existante. Inconvénient : deux sauts SIP augmentent la latence et complexifient le debugging.

Modèle 2 : intégration native via API plateforme

Les plateformes modernes (Twilio Flex, Amazon Connect, Genesys Cloud) exposent des APIs permettant d'injecter un agent vocal IA directement dans le flux d'appel sans SIP transfer. Amazon Connect utilise les Contact Flows avec intégration Lambda/Lex ; Twilio Flex utilise les Conversations APIs ; Genesys Cloud expose des bot connectors standardisés. Ce modèle offre plus de fluidité et un meilleur accès aux métadonnées de l'appel, mais requiert de coder sur les APIs spécifiques de chaque plateforme — portabilité réduite entre CCaaS.

Plateforme CCaaS Mode d'intégration recommandé Protocole Niveau de complexité
Amazon Connect Contact Flows + Lambda Invoke API REST + SIP Moyen
Genesys Cloud Bot Connector natif API REST + WebSocket Moyen
Twilio Flex Conversations API + SIP API REST + SIP Moyen à élevé
Avaya / Cisco (legacy) SIP transfer tiers + CTI CSTA SIP + CSTA Élevé
Microsoft Teams Phone Direct Routing SIP + Bot Framework SIP + API Graph Élevé

Obtenir des numéros de téléphone pour votre agent IA en France

Un agent vocal IA doit être joignable sur de vrais numéros de téléphone. En France, les numéros sont régulés par l'ARCEP et doivent être portés par un opérateur agréé.

Types de numéros et leurs usages

Les numéros géographiques (01 à 05) sont recommandés pour les appels entrants service client — ils inspirent confiance et sont accessibles depuis l'étranger. Les numéros 09xx (non-géographiques) sont économiques et multi-sites — adaptés aux PME sans présence géographique forte. Les numéros 08xx sont surtaxés ou gratuits selon le préfixe : le 0800 est gratuit pour l'appelant (intéressant pour le SAV premium) mais requiert un agrément spécifique. Les numéros 07 (mobiles) sont déconseillés pour les agents IA entrants — ils semblent personnels et créent de la méfiance.

Portabilité des numéros existants

Si vous souhaitez faire sonner vos numéros existants sur votre agent vocal IA, la portabilité vers un opérateur SIP est la procédure standard. Délai moyen : 7 à 15 jours ouvrés pour un numéro géographique. Pendant la portabilité, l'ancienne destination reste active — pas d'interruption de service. Points de vigilance : vérifier que votre contrat actuel n'inclut pas de clause de conservation minimale, et prévoir une bascule progressive (d'abord les heures creuses, puis full-time) pour valider le comportement de l'agent avant la migration complète.

Latence téléphonique et fiabilité : ce que vous ne pouvez pas ignorer

La latence perçue par l'appelant est la somme de toutes les latences de la chaîne. La couche téléphonique contribue typiquement pour 20 à 80 ms — modeste mais non négligeable lorsqu'elle s'accumule avec les latences STT, LLM et TTS.

Sources de latence téléphonique à monitorer

La gigue réseau (jitter) est la variabilité de la latence paquet — un jitter buffer de 20 à 40 ms est nécessaire pour lisser les arrivées irrégulières de paquets RTP. Le round-trip time (RTT) entre votre media gateway et l'opérateur SIP doit rester sous 50 ms pour une qualité conversationnelle optimale. Le transcoding audio (conversion entre codecs incompatibles) ajoute 10 à 30 ms et dégrade la qualité — à éviter par une bonne négociation codec. Les sauts de signalisation SIP supplémentaires (CCaaS → agent IA → CCaaS) ajoutent 20 à 50 ms par saut.

Architecture haute disponibilité

Un agent vocal IA en production ne peut pas tomber pendant les heures de travail. L'architecture de haute disponibilité minimale repose sur : dual SIP trunk avec deux opérateurs différents (failover automatique en moins de 3 secondes) ; media gateway en cluster actif-actif (pas de coupure lors d'une maintenance) ; healthcheck toutes les 30 secondes sur le trunk primaire avec bascule automatique. Les SLAs des opérateurs SIP varient de 99,5 % (commodity) à 99,999 % (opérateurs premium avec garanties contractuelles) — choisissez en fonction de votre volume d'appels et de l'impact business d'une interruption.

TALKR gère toute l'infrastructure téléphonique de votre agent vocal IA

SIP trunk haute disponibilité, numéros DDI inclus, intégrations CCaaS (Genesys, Amazon Connect, Twilio Flex), CTI et monitoring temps réel : TALKR délivre une solution clé en main, sans que vos équipes aient à maîtriser la téléphonie opérateur. Vos développeurs se concentrent sur les cas d'usage métiers — nous gérons la couche télécoms.

Découvrir nos agents vocaux IA Calculer votre ROI

Questions fréquentes — Intégration téléphonie agent vocal IA

Qu'est-ce qu'un SIP trunk et pourquoi est-il indispensable pour un agent vocal IA ?

Un SIP trunk est un canal VoIP qui connecte votre infrastructure à la téléphonie publique (PSTN). Pour un agent vocal IA, c'est le pont obligatoire pour recevoir et émettre des appels sur de vrais numéros de téléphone. Il transporte séparément les flux audio (RTP) et les signaux d'appel (SIP), permettant à l'IA de traiter l'audio en temps réel pendant que la signalisation gère l'établissement et la fin des appels.

Quelle différence entre SIP trunk et WebRTC pour déployer un agent vocal IA ?

Le SIP trunk s'intègre à l'infrastructure téléphonique existante — idéal pour les centres de contact avec des numéros fixes et des flux entrants massifs. Le WebRTC permet les appels depuis un navigateur sans logiciel tiers — idéal pour le click-to-call et les démonstrations. Pour un callbot d'entreprise en production, le SIP trunk offre plus de stabilité, de contrôle qualité audio et d'interopérabilité avec les systèmes CCaaS existants.

Quel codec audio choisir pour un callbot IA : G.711, G.722 ou Opus ?

G.722 (HD téléphonique, 16 kHz) est recommandé en priorité pour les SIP trunks — il améliore la précision STT de 15 à 25 % par rapport au G.711. Opus est optimal en WebRTC mais peu supporté sur les équipements PSTN. G.711 est le fallback universel mais doit rester en dernier recours. G.729 (compression forte) est à bannir absolument pour les agents vocaux IA.

Qu'est-ce que le CTI et comment l'utiliser avec un agent vocal IA ?

Le CTI (Computer Telephony Integration) connecte en temps réel la téléphonie aux systèmes d'information. Pour un agent vocal IA, le CTI enrichit le contexte avec les données CRM identifiées par le numéro CLI avant que l'agent décroche, et déclenche un screen pop (fiche récapitulative) sur le poste du conseiller humain lors d'un transfert. Il réduit l'AHT de 20 à 35 % en évitant à l'appelant de se réidentifier.

Comment intégrer un agent vocal IA à une solution CCaaS existante comme Genesys ou Amazon Connect ?

Deux modèles principaux : le SIP transfer (universel, le CCaaS délègue l'appel vers l'IA puis récupère pour le transfert humain) et l'intégration API native (Amazon Contact Flows + Lambda, Genesys Bot Connector, Twilio Conversations API). Le SIP transfer est plus portable entre CCaaS ; l'intégration native est plus fluide mais spécifique à chaque plateforme.

Comment obtenir des numéros de téléphone (DDI) pour un agent vocal IA en France ?

Trois voies : porter vos numéros existants vers un opérateur SIP agréé ARCEP (délai 7-15 jours), acquérir de nouveaux numéros chez un opérateur SIP (Orange, OVHcloud, Telnyx, Twilio), ou utiliser les numéros DDI inclus dans l'offre de votre éditeur d'agent vocal. Les numéros géographiques (01-05) inspirent le plus de confiance pour les appels entrants service client.

Quelle latence est introduite par la couche téléphonie dans un agent vocal IA ?

La couche téléphonique (SIP + RTP) introduit typiquement 20 à 80 ms de latence dans des conditions réseau optimales. Elle s'additionne aux latences STT, LLM et TTS. Pour rester sous les 800 ms de latence perçue totale (seuil acceptable), surveillez : le RTT trunk (cible < 50 ms), le jitter buffer (20-40 ms), et les sauts SIP supplémentaires liés aux intégrations CCaaS (20-50 ms par saut).

Pour aller plus loin