Les modèles de langage Les modèles de langage Image d'une feuille

Les modèles de langage

Qu’est-ce qu’un modèle de langage ?

Un modèle de langage (ou LLM, pour Large Language Model) est un système informatique capable de comprendre et de produire du texte, comme le ferait un humain. Il peut répondre à des questions, reformuler des phrases, corriger des fautes, résumer un texte, ou même générer des exercices pédagogiques. Ces modèles sont "entraînés" sur d’énormes quantités de textes (livres, sites web, documents, etc.) pour apprendre comment les mots sont utilisés ensemble. Plus ils lisent de textes, plus ils deviennent capables de répondre de manière fluide et pertinente. Le plus connu est ChatGPT (d’OpenAI), mais il en existe d’autres : Claude, Gemini, Mistral (un modèle français), ou encore LLaMA (de Meta).

Évolution des LLM - Ioan ROXIN, ELLIADD
Évolution des LLM - Ioan ROXIN, ELLIADD

Processus de construction d’un modèle de langage

Un modèle de langage à grande échelle (LLM) comme ChatGPT, Claude, Mistral ou Gemini est un programme d’intelligence artificielle entraîné pour comprendre et générer du texte en langage naturel. Il est construit en plusieurs grandes étapes.

Pour apprendre à “parler” comme un humain, un LLM doit d’abord lire énormément de textes.

  • Des livres numériques (romans, essais, encyclopédies...)
  • Des articles de presse, des sites web, des forums publics
  • Des documents techniques, scientifiques, pédagogiques
  • Des dialogues anonymisés

Objectif : exposer le futur modèle à toutes les formes d’écriture, sur des milliers de sujets, pour qu’il puisse généraliser.

Les textes sont découpés en petites unités appelées tokens. Un token peut être :

  • Un mot entier (« apprendre »)
  • Une partie de mot (« appr- », « -endre »)
  • Un symbole ou une ponctuation (« ? », « , », etc.)

Exemple : On donne au modèle “Le ciel est” → il doit deviner “bleu”.

C’est l’étape la plus complexe, qui utilise des algorithmes d’apprentissage automatique, en particulier une architecture appelée Transformer (Vaswani et al., 2017).

  • Le modèle passe des milliers d’heures à traiter des milliards de phrases.
  • Il ajuste des millions à des milliards de paramètres internes.
  • Il apprend à détecter des relations entre les mots : qui suit qui, dans quel contexte, avec quelles nuances.

C’est comme un entraînement géant de “complétion de phrases”, mais à très grande échelle.

Une fois le modèle “pré-entraîné” sur des données générales, on peut :

  • Le spécialiser sur un domaine (formation, droit, médecine, etc.)
  • Le rendre plus “sûr” en lui apprenant à éviter les contenus offensants ou faux
  • Lui donner des exemples de bonnes pratiques conversationnelles
  • L’affiner avec des retours humains (RLHF)
  • Le tester sur des tâches précises (traduction, résumé, etc.)
  • Le proposer via une interface (ex. ChatGPT) ou une API
  • Le mettre à jour selon les retours utilisateurs

Ce qu’il faut retenir :

  • Un LLM apprend à prédire le texte grâce à une très grande quantité d’exemples.
  • Il imite le langage humain sans le “comprendre”.
  • Il ne connaît pas l’actualité en temps réel (sauf s’il est connecté à Internet).
  • Il reste puissant mais imparfait.

En résumé

1. Collecte des données Exposer le modèle à un langage riche et varié
2. Tokenisation Préparer les textes en petits morceaux compréhensibles
3. Entraînement (Transformer) Apprendre à prédire les mots suivants dans une phrase
4. Réglage (fine-tuning) Améliorer la qualité, la sécurité et la pertinence
5. Déploiement Le rendre accessible via une interface ou une plateforme