Pourquoi passer de Bert et TFiDF au transformers une évolution rapide de la compréhension du texte

La technologie de traitement du langage naturel (NLP) a connu une évolution rapide ces dernières années. Les méthodes de représentation vectorielle de texte telles que Term-Frequency (TF) et Term Frequency-Inverse Document Frequency (TF-IDF) ont été utilisées avec succès pour de nombreux problèmes de NLP.

Cependant, ces méthodes présentent des limites, notamment le fait que certains mots sont par nature plus utilisés que d'autres, ce qui peut conduire à des résultats erronés. De plus, plus le vocabulaire du corpus est riche, plus la taille des vecteurs est grande, ce qui peut représenter un problème pour les modèles d'apprentissage utilisés dans l'étape suivante. Enfin, le comptage d'occurrence des mots ne permet pas de rendre compte de leur agencement et donc du sens des phrases.

L’efficacité de ces méthodes a été prouvé mais elles présente deux principales limites :

Plus la FAQ et le vocabulaire du corpus est riche, plus la taille des vecteurs est importante, ce qui peut représenter un véritable problème pour les modèles d’apprentissage
Le comptage d’occurrence des TAGs ne permet pas de rendre compte de leur agencement et donc dusens des phrases. il est souhaitable d'ajouter d'autres algorithmes pour palier à cette insuffisance

Il existe une autre approche qui permet de remédier à ces problèmes: Word Embedding. Elle consiste à construire des vecteurs de taille fixe qui prennent en compte le contexte dans lequel se trouvent les mots (sacs de mots). technologie longtemps utilisée au sein de TALKR La méthode de représentation vectorielle de texte a été développée il y a plusieurs années : Word Embedding. Cette méthode consiste à construire des vecteurs de taille fixe qui prennent en compte le contexte dans lequel se trouvent les mots. Ainsi, deux mots présents dans des contextes similaires auront des vecteurs plus proches (en termes de distance vectorielle). Cela permet de capturer à la fois les similarités sémantiques, syntaxiques ou thématiques des mots.

La technologie Transformer plus récente, et plus particulièrement le modèle GPT (Generative Pre-trained Transformer), utilise des réseaux de neurones profonds pour créer des représentations de mots et de phrases qui dépassent largement les performances de TF et TF-IDF. GPT a été pré-entraîné sur de vastes quantités de données textuelles, ce qui lui permet de produire des résultats plus précis et plus cohérents que les méthodes de représentation vectorielle de texte traditionnelles.

Les Transformer utilisent une architecture de réseau de neurones à mémoire à court terme, ou Memory-Attention, qui permet de prendre en compte les contextes locaux et globaux. Cette architecture est basée sur un mécanisme d’attention qui permet au modèle de pondérer l’importance de chaque mot dans la phrase en fonction de son contexte.

Les modèles de Transformer, tels que BERT et GPT, ont une architecture très sophistiquée qui utilise plusieurs mécanismes d’attention. Ces mécanismes incluent la Self-Attention et la Multi-Head Attention. La Self-Attention permet de calculer des vecteurs de poids qui sont appliqués à chaque mot de la phrase pour pondérer son importance relative dans le contexte. La Multi-Head Attention permet de réaliser plusieurs calculs de Self-Attention en parallèle, ce qui améliore la capacité du modèle à capturer les relations complexes entre les mots.

La formule de la Self-Attention est la suivante :

Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) V

Où :

Q est la matrice des requêtes ; K est la matrice des clés ; V est la matrice des valeurs ; d_k est la dimension des vecteurs de clé.

La formule de la Multi-Head Attention est la suivante :

MultiHead(Q,K,V) = Concat(head_1,...,head_h) W^O

Où :

head_i = Attention(QW_i^Q,KW_i^K,VW_i^V) W_i^Q, W_i^K et W_i^V sont les matrices de poids pour chaque tête i ; W^O est la matrice de poids de la sortie.

Ces formules permettent de mieux comprendre le fonctionnement des mécanismes d’attention utilisés dans les Transformer. Grâce à ces mécanismes, les modèles de Transformer peuvent capturer des relations sémantiques plus complexes que les modèles basés sur les méthodes de TF-IDF ou de Bag-Of-Words.

En résumé, les modèles de Transformer sont des modèles de NLP très puissants qui utilisent des mécanismes d’attention sophistiqués pour capturer les relations sémantiques complexes entre les mots d’une phrase. Ces modèles sont plus efficaces que les modèles basés sur les méthodes de TF-IDF ou de Bag-Of-Words pour résoudre des tâches complexes de NLP, telles que la génération de texte ou la traduction automatique. Bien que les méthodes de représentation vectorielle de texte telles que TF et TF-IDF aient été utilisées avec succès pour de nombreux problèmes de NLP, elles présentent des limites importantes. La technologie Transformer, et plus spécifiquement le modèle GPT, représente une avancée majeure dans le domaine de la NLP en permettant de capturer de manière plus précise les similarités sémantiques, syntaxiques et thématiques des mots et des phrases.

FAQ - Evolution de TF-IDF vers BERT et les Transformers

Qu'est-ce que TF-IDF et pourquoi etait-il la methode de reference avant les Transformers ?

TF-IDF (Term Frequency - Inverse Document Frequency) est une methode statistique qui attribue un poids a chaque mot d'un document en combinant deux facteurs. La frequence du terme (TF) : plus un mot apparait souvent dans un document, plus il est repressentatif de ce document. La frequence inverse dans le corpus (IDF) : plus un mot est rare dans l'ensemble du corpus, plus il est informatif. Un mot comme "le" a un TF potentiellement eleve mais un IDF tres bas (il apparait dans tous les documents) : son score TF-IDF est faible. Un mot technique rare qui n'apparait que dans quelques documents a un IDF eleve : son score est fort. Cette methode etait la reference car elle est mathematiquement simple, computationnellement efficace, et donne des resultats raisonnables pour la recherche documentaire et la classification de texte basique. Ses limites sont l'absence de comprehension semantique (les synonymes ont des scores independants), l'ignorance de l'ordre des mots, et l'incapacite a gerer les homonymes.

Qu'est-ce que le Word Embedding et en quoi represente-t-il une avancee par rapport a TF-IDF ?

Le Word Embedding (enchassement de mots) est une technique qui represente chaque mot comme un vecteur dense dans un espace a plusieurs centaines de dimensions, ou la position geometrique encode la signification semantique. Des mots semantiquement proches ("roi", "reine", "monarque") ont des vecteurs proches. La propriete remarquable des Word Embeddings (Word2Vec, GloVe, FastText) est qu'ils capturent des relations semantiques : le vecteur de "roi" moins "homme" plus "femme" donne approximativement le vecteur de "reine". Contrairement a TF-IDF qui traite chaque mot independamment, les embeddings representent les relations entre mots et permettent de mesurer la similarite semantique meme entre des phrases sans mot en commun. La limite principale est que ces representations sont statiques : le vecteur de "avocat" est le meme qu'il s'agisse du fruit ou du juriste. Les Transformers ont resolu ce probleme en produisant des representations contextuelles qui varient selon le contexte de la phrase.

Qu'est-ce que le mecanisme d'attention des Transformers et pourquoi est-il si puissant ?

Le mecanisme d'attention permet au modele de calculer, pour chaque position dans une sequence, un poids d'importance pour toutes les autres positions. Concretement, pour generer la representation d'un mot, le Transformer regarde tous les autres mots de la phrase et decide dynamiquement lesquels sont les plus pertinents pour comprendre ce mot dans ce contexte. Pour le mot "banque" dans "il a depose son argent a la banque", le mecanisme d'attention va fortement ponderer "argent" et "depose", signalant que la signification financiere est pertinente. Dans la phrase "il peche sur la rive de la banque", il va ponderer "peche" et "rive", signalant la signification geographique. La formule Attention(Q,K,V) = softmax(QK^T/sqrt(d_k))V encode mathematiquement ce calcul : Q (requetes), K (cles) et V (valeurs) sont des matrices derivees de la meme entree par transformation lineaire. L'attention multi-tete (Multi-Head Attention) realise ce calcul en parallele avec plusieurs "tetes" qui captent differents types de relations, comme la grammaire, la coreference ou les relations semantiques.

Quelle est la difference entre BERT et GPT et pour quels usages chacun est-il preferable ?

BERT (Bidirectional Encoder Representations from Transformers, Google 2018) et GPT (Generative Pre-trained Transformer, OpenAI 2018) utilisent tous deux l'architecture Transformer mais avec des objectifs d'entrainement differents qui les rendent complementaires. BERT est entraine a predire des tokens masques en utilisant le contexte bidirectionnel (mots avant ET apres). Il produit des representations riches de phrases entieres et est excellent pour les taches de comprehension : classification de sentiment, reconnaissance d'entites, reponse a des questions a partir d'un contexte. GPT est entraine a predire le token suivant (gauche vers droite uniquement). Il est excellent pour la generation de texte : continuation de texte, dialogue, redaction. Pour un chatbot ou un moteur de FAQ, BERT (et ses variantes : RoBERTa, CamemBERT pour le francais, DistilBERT pour la rapidite) est generalement preferable pour la comprehension et la classification. GPT et ses successeurs sont privilegies quand la generation de reponses en langage naturel est l'objectif principal. En 2026, les LLMs de generation ont largement supplante les classifieurs BERT pour les applications conversationnelles en raison de leur polyvalence.

Qu'est-ce que les "bags of words" et pourquoi cette representation ne suffit-elle pas pour comprendre le sens d'une phrase ?

La representation "bag of words" (sac de mots) traite un texte comme une simple collection de mots, en ignorant completement leur ordre et leur structure grammaticale. La phrase "le chien a mordu l'homme" et "l'homme a mordu le chien" ont la meme representation bag-of-words bien que leur sens soit completement oppose. Pour la classification de topics ou la recherche documentaire simple, cette perte d'information sur l'ordre est souvent tolerable car les mots cles restent les memes. Pour la comprehension semantique fine (comprendre la relation entre les entites, les negations, les conditions), cette representation est fondamentalement insuffisante. La prise en compte de l'ordre est apparue avec les n-grammes (sequences de 2 ou 3 mots consecutifs), puis les reseaux de neurones recurrents, et finalement les Transformers qui modelisent toutes les relations dans une phrase simultanement. C'est cette capacite a gerer les dependances entre mots eloignes qui rend les Transformers si superieurs pour la comprehension du langage naturel.