quels sont les critères de comparaison pour trouver le bon LLM

Dans le paysage actuel des modèles de langage de grande envergure (LLM), la sélection du modèle optimal pour une entreprise ne repose pas uniquement sur la performance en termes de compréhension du language et de génération de texte ou de chat. Il est essentiel d’établir un équilibre optimal entre trois piliers: la qualité de la réponse, le coût des tokens et la vitesse de réponse, formant ainsi un triptyque décisionnel.

Le graphique indique que Mistral se distingue par sa vitesse de traitement des tokens par seconde à un coût d’inférence comparable à celui des autres LLMs, ce qui en fait un concurrent sérieux dans la catégorie dite « Workhorse Tier ». Cela suggère que Mistral pourrait être un choix judicieux pour des tâches nécessitant rapidité et coût modéré sans compromettre excessivement la qualité de la réponse attendue.

Cependant, les modèles situés dans le « Intelligence Tier » comme Claude 3 Opus, GPT-4, et Gemini Pro 1.5, bien qu’affichant des coûts plus élevés et des vitesses de traitement moindres, suggèrent une capacité supérieure de compréhension et de création de contenu sophistiqué. Ces LLMs pourraient être privilégiés pour des applications où la nuance et la sophistication de la réponse sont critiques, justifiant ainsi leur coût supérieur. On parle bien de coûts démultipliés qui peuvent allourdir considérablement la facture.

La médiane recherchée est donc un compromis stratégique où chaque dimension est optimisée en fonction des besoins spécifiques de l’utilisation que l’on peut en faire. Dans le cadre du pré-entraînement, où les LLMs acquièrent des compétences linguistiques fondamentales, et de l’ajustement fin (fine tuning), qui affine ces compétences pour des applications spécifiques, une attention particulière doit être portée au coût d’inférence et à la vitesse, car ces phases peuvent s’avérer énergivores et coûteuses. Une moindre vitesse empêchera l’utilisation de ces technologies sur des callbots de TALKR car la vitesse de réponse en mars 2024 est est supérieure à 1 seconde sauf à condition de mettre le prix au niveau des puces Nvdia qui vont traiter les calculs.

Le choix d’un LLM et des IA Génératives ne doivent pas être dicté seulement par la performance seule, mais plutôt par une analyse approfondie du coût total de possession (TCO), qui englobe le coût initial de configuration, les coûts d’inférence, les coûts de maintenance, et les coûts associés. Une architecture hybride peut être envisagée, où des modèles plus rapides et moins coûteux sont utilisés pour des tâches courantes, tandis que des modèles plus coûteux et performants sont réservés à des tâches complexes. Sans parler aussi du problème lié au RGPD. Ou vont les datas ? que font les entreprises avec ces données. Cela ajoute alors une nouvelle dimension dans le choix final de l’outil que l’on va utiliser.

En outre, l’écosystème open source, avec des projets comme Llama, offre une alternative attractive, permettant aux entreprises de déployer des LLMs dans un cadre commercial sans les contraintes des solutions propriétaires, offrant ainsi une plus grande flexibilité et potentiellement des coûts réduits mais nos tests au seins de TALKR sont assez décevants en terme de qualité de réponse à moins de générer des prompts très longs : la longueur des prompts ajoute aussi alors une nouvelle dimension. Un mauvais LLM avec un bon prompt peut donner des résultats performants selon nos tests internes.

En tant que data scientist, l’analyse quantitative et qualitative de ces modèles nécessite une approche rigoureuse, intégrant des évaluations de performance (benchmarking), des analyses coût-bénéfice, et des considérations sur l’empreinte carbone associée aux opérations d’entraînement et d’inférence des modèles. La décision finale repose sur la synergie entre les exigences métier, l’expérience utilisateur et les contraintes budgétaires, orchestrées avec une compréhension approfondie des modèles LLM disponibles. C’est un véritable casse-tête !

Pour progresser dans cette légère analyse, il est impératif de se pencher sur la latence algorithmique, qui est souvent un compromis inévitable entre la vitesse d’exécution et la précision du modèle. La latence se manifeste par le délai entre la requête d’entrée et la réponse du système, ayant une incidence directe sur l’expérience utilisateur et la fluidité des interactions, particulièrement cruciales pour les applications en temps réel. Bien souvent mis à l’écart mais indispensable pour les outils conversationnels que nous développons au sein de notre entreprise.

Dans un contexte d’application, les modèles tels que Mistral et Gemini 1.0 Pro pourraient offrir un avantage opérationnel, du fait de leur efficience temporelle. Pour les applications nécessitant des interactions quasi instantanées, telles que les assistants virtuels ou les outils de support en direct, la minimisation de la latence est primordiale. L’inférence rapide permet de maintenir l’engagement de l’utilisateur et d’augmenter la satisfaction client, en dépit d’une légère dégradation de la qualité de réponse. Nous cherchons des outils capable de descendre en dessous de 500ms pour ne pas dégrader l’experience utilisateur.

Cependant, pour des applications exigeant un niveau élevé de sophistication, telles que les systèmes de recommandation ou l’analyse sémantique poussée, il est souvent préférable d’opter pour des modèles comme GPT-4 ou Opus, en dépit de leur coût plus élevé et de leur vitesse plus lente. Ces modèles avancés offrent une profondeur de compréhension et une créativité dans les réponses qui peuvent être déterminantes pour la valeur ajoutée du service ou du produit final. Ces modèles sont fortements plébiscité pour des tâches plus complexes. Cela devient d’autant plus intéressant qu’avec l’arrivée de GPT5 les anciens modèles devenant obselètes, les coûts des tokens vont s’éffondrer tout en conservant des qualités de réponses convenables avec des vitesse de traitement totalement abordable. Cela va donc avoir une incidence direct sur la propagation de bots vocaux partout dans le monde à des couts raisonnables.

Le coût de maintenance doit aussi être considéré, incluant les mises à jour des modèles et le monitoring continu des performances. Dans le cadre d’un modèle open source comme Llama, bien que l’absence de frais de licence soit attrayante, les coûts cachés liés à la maintenance, l’intégration continue, et la gestion des infrastructures doivent être évalués minutieusement.

il va de soit que nous devons envisager les coûts indirects associés, tels que ceux liés à l’empreinte écologique des infrastructures de calcul nécessaires à l’entraînement et au déploiement des LLMs. La consommation énergétique et les émissions de carbone associées aux data centers qui hébergent ces modèles ne sont pas négligeables et peuvent influencer la décision d’une entreprise soucieuse de sa responsabilité environnementale. Ce sujet reste sous jacent et pas encore tellement mis en avant malgré les politiques RSE des grandes entreprises qui n’ont pas encore pris conscience des dangers énergivores de ces modèles. En effet, la moindre requête consomme de l’énergie. il est donc important de savoir utiliser à bon escient, ces modèles dans les conversations, uniquement là ou on peut en avoir l’utilité.

L’adoption d’un LLM pour n’importe quelle organisation doit résulter d’une analyse multidimensionnelle et d’une compréhension approfondie du rapport « qualité-prix-vitesse-energie-sécurité« . L’architecture choisie doit être agile, évolutive, et adaptée aux besoins spécifiques, tout en étant éco-responsable. Les innovations dans l’optimisation des modèles et les nouvelles avancées en matière de réduction de la latence et du coût d’opération continueront de remodeler le paysage des LLMs, offrant ainsi aux entreprises des opportunités de rester compétitives dans un monde numérique en rapide mutation.

pourquoi le secteur RH est chamboulé par les IAs

L’intelligence artificielle (IA) transforme radicalement le monde professionnel, notamment dans les domaines du management, du droit, et de la gestion des ressources humaines (RH). Cette révolution technologique soulève de multiples questions que nous nous posons chez TALKR quant à son intégration et son encadrement dans l’environnement de travail d’aujourd’hui et de demain. Cet article se propose de comparer différents modèles d’IA en se concentrant sur deux problématiques majeures qui combinent le management, le droit, et la gestion des RH, ainsi qu’une question spécifique liée au recrutement et à la gestion des talents dans le contexte post-COVID-19. En effet le monde change vite et tout le monde a les yeux rivés sur les IAs génératives qui vont certainement remplacer le travail de demain.

Problématique 1 : L’équilibre entre automatisation et humanisation des processus RH
L’intégration de l’IA dans les processus de RH vise à automatiser des tâches répétitives et à optimiser la prise de décision grâce à l’analyse de données : on est tous d’accord sur cela car cela améliore au quotidien la vie des équipes qui n’ont plus à fournir des travaux pénibles et fastidieux. Cependant, cela pose la question de l’équilibre à trouver entre l’efficacité apportée par l’automatisation et la nécessité de préserver une approche humanisée dans la gestion des relations avec les employés. Les modèles d’IA doivent donc être évalués selon leur capacité à améliorer les processus RH tout en respectant les valeurs humaines et éthiques fondamentales. En effet, nous constatons que l’IA n’est pas toujours capable de détecter entre les lignes les softskills des candidats par exemple et peut donc aisément passer à coté d’un profil à haut potentiel.

Problématique 2 : La conformité aux cadres légaux et éthiques
L’utilisation de l’IA dans le management et la RH doit se faire dans le respect des cadres légaux et éthiques en vigueur. Cela inclut les lois sur la protection des données personnelles, la non-discrimination à l’embauche, ou encore le respect de la vie privée des employés. Les différents modèles d’IA doivent donc être capables de garantir leur conformité avec ces normes, ce qui pose la question de leur adaptabilité aux législations qui varient d’un pays à l’autre. LA encore de nombreux biais s’installent un peu plus tous les jours. Les IAs sont entrainées sur des modèles qui laissent peu de chance à la diversité et donc vont pénaliser certaines typologie de personnes en se basant sur des critères qui ne reflètent pas la réalité. Ainsi les entreprises risquent d^être à la recherche de jumeaux numériques qui n’existent pas toujours.

Le recrutement et la gestion des talents à l’ère du télétravail
Le recrutement et la gestion des talents dans un monde post-COVID-19, où le télétravail gagne en popularité, soulèvent de nouvelles problématiques. Comment les modèles d’IA peuvent-ils aider les entreprises à attirer et retenir les talents dans un contexte où les attentes des employés évoluent vers plus de flexibilité et un meilleur équilibre entre vie professionnelle et vie privée ? Cette question aborde la nécessité pour les modèles d’IA de s’adapter à un marché du travail en mutation, où le sens attribué au travail et la qualité de vie au travail deviennent des critères de plus en plus déterminants dans les choix professionnels des individus. le télétravail est un véritable atout pour les personnes qui savent s’organiser et celle qui ne veulent pas perdre une heure dans les transports en commun (puis tomber malade) ou en voiture (disons 10 heures par semaine sans compter les bouchons du périph). Nous travaillons en remote depuis 2011 avec notre équipe tech. l’idée de travailler dans un bureau me parait tellement inadéquate dans le monde actuel. cela ne veut pas dire non plus qu’il faut rester avachi sur sa chaise en procrastinant toute la journée derrière Netflix. Le remote demande de la rigueur et de se lever le matin : pas question de rester en slibard et d’avoir juste une chemise sur zoom avec un client, il faut aussi avoir un espace de travail aménagé (surtout en couple) sinon c’est le « bordel sonore ». il faut aussi trouver des moments privilégiés pour se retrouver physiquement si possible avec l’équipe et sortir de chez soi. Optimiser son temps, c’est améliorer sa vie et donner du sens. Après tout, on peut aussi télétravailler sur un bateau quoi qu’on peut vite être distrait par l’extérieur. les grosses entreprises devraient faire des tests d’A/B testing pour voir quelles seraient les équipes les plus productives. il y aurait de sacrées surprises. d’où faire la distinction entre les boites aux cultures rh bullshit Vs boîtes qui ancrent le remote dans la culture de l’entreprise de façon qualitative. Vu comme une opportunité, voire le seul moyen de maintenir en vie une entreprise pendant la période Post covid, le télétravail a été mis en place dans l’urgence pour la plupart des organisations pendant la crise sanitaire des années 20. Seules les sociétés qui avaient déjà négocié des accords sur le sujet n’ont pas vu ce changement comme une « délestation totale » du pouvoir managérial et de son contrôle.

La question de confiance est primordiale et pour l’avoir constaté avec un collaborateur en full remote, tout le monde n’en est pas digne… Et là, on reboucle avec la théorie des X et des Y de Mc Gregor et la vision des employeurs quant à leurs collaborateurs apparait clairement, un bon indicateur du climat et de la culture de l’entreprise… Le mode hybride me parait donc être le bon compromis pour chacune des parties car sans rencontre, sans échange comment créer un collectif de travail dans une équipe, comment un manager peut il prendre le pouls de son équipe, comment conserver une partie d’humain si le échanges ne se font que par Teams et écrans interposés avec des bots qui font les comptes rendus ? Le télétravail peut aussi être un vecteur de la déshumanisation du travail. (extrait d’un texte de Stéphanie M)

Les modèles d’IA et les LLMs offrent des perspectives prometteuses pour révolutionner le management, le droit, et la gestion des RH. Cependant, leur efficacité et leur acceptation dépendront de leur capacité à intégrer les enjeux éthiques, humains, et légaux inhérents à ces domaines. La comparaison de ces modèles sur la base des problématiques et de la question soulevées permettra d’évaluer leur pertinence et leur adaptabilité aux défis contemporains du monde du travail.

TALKR