01
Ce qu'est vraiment un LLM
Un grand modèle de langage (LLM, pour large
language model) n'est pas une base de connaissances qui
stocke des faits. C'est une fonction mathématique entraînée à
prédire le prochain morceau de texte (token) à partir du texte
qui précède. Cette fonction a des centaines de milliards de
paramètres ajustés par optimisation sur des corpus massifs.
Quand vous tapez une question, le modèle ne cherche
pas une réponse, il en génère une, token après token,
en choisissant à chaque pas le suivant le plus probable selon
ce qu'il a appris.
Cette distinction est opérationnelle, pas philosophique. Elle
explique tout : pourquoi le modèle invente parfois avec
aplomb, pourquoi il est meilleur sur ce qu'on lui montre que
sur ce qu'on lui demande à froid, pourquoi le contexte que
vous lui fournissez a un effet démesuré sur la qualité.
À retenir
Un LLM n'a pas de croyances, pas d'intentions, pas de
mémoire entre deux conversations (sauf si on lui en donne
une explicitement). C'est un système de complétion massif.
Tout le reste est interface.
02
Tokens, le grain de la pensée du modèle
Le modèle ne voit pas des mots ni des lettres : il voit des
tokens. Un token, c'est un fragment de mot
(le mot « anniversaire » fait deux ou trois tokens selon
l'encodeur ; « anticonstitutionnellement » peut en faire
une dizaine). Le texte
est d'abord découpé par un tokenizer, puis chaque
token est transformé en un vecteur (embedding) que le réseau
manipule.
Conséquences pratiques :
-
La fenêtre de contexte est exprimée en
tokens, pas en mots. Un contexte de 200 000 tokens
correspond environ à 500 pages de texte. Au-delà,
l'information « tombe » de la fenêtre et le modèle
l'oublie.
-
La facturation des APIs est au token, en
entrée comme en sortie. Un prompt verbeux coûte
proportionnellement.
-
Les modèles sont mauvais pour compter les lettres ou
manipuler du texte caractère par caractère, parce qu'ils
ne voient pas les caractères, ils voient des tokens.
03
L'attention, ce qui rend le modèle utilisable
Sous le capot, l'architecture dominante reste le
Transformer (Vaswani et al., 2017). Son
ingrédient clé est le mécanisme d'attention : à
chaque pas de génération, le modèle pondère dynamiquement
l'importance de chaque token précédent pour décider du
suivant. C'est ce qui lui permet de tenir une longue
conversation cohérente, ou de coder une fonction qui appelle
correctement une variable définie cent lignes plus haut.
Vous n'avez pas besoin de comprendre les mathématiques pour
vous en servir, mais la conséquence opérationnelle est
essentielle : tout ce qui est dans la fenêtre de
contexte influence la sortie. Si vous gardez dans
la conversation des consignes contradictoires, des essais
ratés ou des préambules verbeux, le modèle les pondère
quand même. D'où l'intérêt de repartir d'un contexte propre
quand une session a dérivé.
04
La date de coupure et ce que le modèle ne sait pas
Chaque modèle a une date de coupure des
données d'entraînement (knowledge cutoff). Au-delà,
il n'a rien vu : pas d'événements, pas de nouvelles
versions de bibliothèques, pas de personnages publics
émergents. Pour Claude 4.7 Opus à la date d'écriture, c'est
début 2026. Pour les autres modèles, c'est variable, et
ça change vite.
Trois solutions opérationnelles :
-
Lui donner l'information dans le prompt.
Copier-coller une page, un PDF, un extrait de
documentation. Le modèle l'utilisera comme contexte de
référence (méthode dite in-context).
-
RAG (Retrieval-Augmented Generation). On
indexe une base documentaire (cours, articles, manuel
interne) dans une base vectorielle, on récupère les
passages pertinents pour chaque question, on les injecte
dans le contexte. C'est la solution standard pour un
assistant institutionnel.
-
Outils de recherche en direct. Les
modèles agentiques peuvent lancer une recherche web ou
interroger une API en temps réel. À utiliser pour les
questions qui dépendent du présent (actualité, prix,
disponibilités).
05
Les hallucinations, pourquoi et comment les détecter
Une hallucination est une affirmation
fausse produite avec l'apparence de la confiance. Le modèle
génère ce qui est le plus probable statistiquement compte
tenu du prompt, pas ce qui est vrai. Quand il n'a pas
l'information, la séquence la plus probable est souvent
plausible, donc fausse de manière convaincante.
Signaux qui doivent déclencher une vérification :
-
Citations bibliographiques précises (auteurs + titres +
années + pages). Les modèles génèrent volontiers des
références plausibles mais inexistantes.
-
Chiffres précis sans source explicite. « 73 % des
étudiants… » sorti de nulle part doit être vérifié.
-
Commandes Bash, signatures d'APIs, options de
bibliothèques. La complétion produit parfois une syntaxe
qui n'existe pas.
-
Faits historiques pointus (date exacte, nom propre rare).
Bonnes pratiques pour les réduire : donner le matériel
source dans le prompt, demander explicitement « cite tes
sources, et écris "je ne sais pas" si tu n'as pas
l'information », utiliser le mode agentique avec recherche
web pour tout ce qui est temps réel.
06
Choisir le bon modèle pour la bonne tâche
Il n'y a pas un « meilleur modèle » dans l'absolu, il y a
des compromis entre intelligence, vitesse et coût. Trois
familles de modèles à connaître (mai 2026) :
| Famille |
Modèles repères |
Usage type |
| Frontière (raisonnement) |
Claude Opus, GPT-5, Gemini Ultra |
Codage complexe, analyse longue, mode agentique exigeant. Plus lent, plus cher. |
| Équilibrés |
Claude Sonnet, GPT-5 mini, Gemini Pro |
Travail quotidien : rédaction, synthèse, conversation. Rapport qualité/coût optimal. |
| Légers / rapides |
Claude Haiku, GPT-5 nano, Gemini Flash |
Classification, extraction, tri, scripts. Réponses en moins d'une seconde, très peu cher. |
Pour un usage personnel via une interface, prendre un modèle
de la famille « frontière » par défaut, et redescendre s'il
est trop lent. Pour de l'API en volume, faire l'inverse :
commencer léger, monter en gamme si la qualité ne suffit
pas.
07
Données et confidentialité
Selon les outils et les réglages, vos échanges peuvent
servir à entraîner les futurs modèles. C'est désactivable
sur les offres payantes professionnelles (ChatGPT Team,
Claude for Work, Gemini Workspace). C'est activé par défaut
sur les offres gratuites.
En contexte professionnel ou universitaire, la règle
opérationnelle :
Partageable
- Documents publics
- Notes anonymisées
- Brouillons sans données nominatives
- Code open source
À ne pas partager
- Données nominatives (RGPD)
- Données de santé, sociales, judiciaires
- Identifiants, clés API, secrets
- Code propriétaire sans accord interne
- Données soumises à confidentialité contractuelle
Pour les usages sensibles : modèles déployés en privé
(Azure OpenAI sur tenant dédié, Bedrock, hébergement local
de modèles open source comme Llama ou Mistral), avec
traçabilité d'accès.
08
Coût économique et environnemental
Un appel API à un modèle frontière coûte typiquement entre
quelques centimes et quelques dizaines de centimes par
tâche, selon la longueur du contexte et de la réponse. Une
conversation interactive d'une heure peut représenter de
quelques dizaines de centimes à plusieurs euros, ce qui
reste négligeable face au temps économisé sur une tâche
qualifiée.
Sur le plan environnemental, l'entraînement d'un modèle
frontière consomme l'équivalent énergétique de plusieurs
centaines de foyers sur une année. L'inférence (votre
requête) est beaucoup plus modeste, mais cumulée à
l'échelle de centaines de millions d'utilisateurs, elle
devient significative. Règle simple : ne pas utiliser un
modèle frontière pour une tâche qu'un modèle léger fait
aussi bien, et ne pas appeler un modèle pour ce qu'une
recherche web normale fournit.
09
Premiers pas opérationnels
Si vous démarrez maintenant, voici un parcours sobre :
-
Choisir un outil et y rester deux semaines.
Claude.ai ou ChatGPT, peu importe. Pas zapper d'un modèle
à l'autre, c'est ce qui empêche d'apprendre les
spécificités.
-
Tenir un fichier de prompts. Dès qu'un
prompt marche bien, le sauvegarder. C'est votre
bibliothèque opérationnelle. Le guide
Prompts qui fonctionnent
donne une structure de départ.
-
Identifier 3 tâches récurrentes dans
votre semaine que l'IA pourrait alléger : un rapport,
une catégorisation, une revue de code, une synthèse de
réunion. Pas dix, trois.
-
Mesurer le temps gagné sur ces trois
tâches. C'est ce qui vous donnera une vision claire de
ce qui marche vraiment pour vous, et c'est aussi ce que
vous présenterez quand on vous demandera ce que l'IA
vous apporte.
-
Passer au mode agentique quand vous
maîtrisez le mode conversation. C'est l'étape qui change
tout ; elle est décrite dans le guide
Mode agentique.
Pour aller plus loin