Guide 01 Fondations lecture, 12 min

Fondamentaux de l'IA générative.

Ce qu'il faut savoir techniquement avant de prétendre piloter un grand modèle de langage. Pas la version simplifiée du journal grand public, pas le cours universitaire de troisième cycle : la version d'un informaticien qui s'en sert quotidiennement et qui veut transmettre la compréhension qui change tout dans l'usage.

Ce qu'est vraiment un LLM

Un grand modèle de langage (LLM, pour large language model) n'est pas une base de connaissances qui stocke des faits. C'est une fonction mathématique entraînée à prédire le prochain morceau de texte (token) à partir du texte qui précède. Cette fonction a des centaines de milliards de paramètres ajustés par optimisation sur des corpus massifs. Quand vous tapez une question, le modèle ne cherche pas une réponse, il en génère une, token après token, en choisissant à chaque pas le suivant le plus probable selon ce qu'il a appris.

Cette distinction est opérationnelle, pas philosophique. Elle explique tout : pourquoi le modèle invente parfois avec aplomb, pourquoi il est meilleur sur ce qu'on lui montre que sur ce qu'on lui demande à froid, pourquoi le contexte que vous lui fournissez a un effet démesuré sur la qualité.

À retenir Un LLM n'a pas de croyances, pas d'intentions, pas de mémoire entre deux conversations (sauf si on lui en donne une explicitement). C'est un système de complétion massif. Tout le reste est interface.

Tokens, le grain de la pensée du modèle

Le modèle ne voit pas des mots ni des lettres : il voit des tokens. Un token, c'est un fragment de mot (le mot « anniversaire » fait deux ou trois tokens selon l'encodeur ; « anticonstitutionnellement » peut en faire une dizaine). Le texte est d'abord découpé par un tokenizer, puis chaque token est transformé en un vecteur (embedding) que le réseau manipule.

Conséquences pratiques :

La fenêtre de contexte est exprimée en tokens, pas en mots. Un contexte de 200 000 tokens correspond environ à 500 pages de texte. Au-delà, l'information « tombe » de la fenêtre et le modèle l'oublie.
La facturation des APIs est au token, en entrée comme en sortie. Un prompt verbeux coûte proportionnellement.
Les modèles sont mauvais pour compter les lettres ou manipuler du texte caractère par caractère, parce qu'ils ne voient pas les caractères, ils voient des tokens.

L'attention, ce qui rend le modèle utilisable

Sous le capot, l'architecture dominante reste le Transformer (Vaswani et al., 2017). Son ingrédient clé est le mécanisme d'attention : à chaque pas de génération, le modèle pondère dynamiquement l'importance de chaque token précédent pour décider du suivant. C'est ce qui lui permet de tenir une longue conversation cohérente, ou de coder une fonction qui appelle correctement une variable définie cent lignes plus haut.

Vous n'avez pas besoin de comprendre les mathématiques pour vous en servir, mais la conséquence opérationnelle est essentielle : tout ce qui est dans la fenêtre de contexte influence la sortie. Si vous gardez dans la conversation des consignes contradictoires, des essais ratés ou des préambules verbeux, le modèle les pondère quand même. D'où l'intérêt de repartir d'un contexte propre quand une session a dérivé.

La date de coupure et ce que le modèle ne sait pas

Chaque modèle a une date de coupure des données d'entraînement (knowledge cutoff). Au-delà, il n'a rien vu : pas d'événements, pas de nouvelles versions de bibliothèques, pas de personnages publics émergents. Pour Claude 4.7 Opus à la date d'écriture, c'est début 2026. Pour les autres modèles, c'est variable, et ça change vite.

Trois solutions opérationnelles :

Lui donner l'information dans le prompt. Copier-coller une page, un PDF, un extrait de documentation. Le modèle l'utilisera comme contexte de référence (méthode dite in-context).
RAG (Retrieval-Augmented Generation). On indexe une base documentaire (cours, articles, manuel interne) dans une base vectorielle, on récupère les passages pertinents pour chaque question, on les injecte dans le contexte. C'est la solution standard pour un assistant institutionnel.
Outils de recherche en direct. Les modèles agentiques peuvent lancer une recherche web ou interroger une API en temps réel. À utiliser pour les questions qui dépendent du présent (actualité, prix, disponibilités).

Les hallucinations, pourquoi et comment les détecter

Une hallucination est une affirmation fausse produite avec l'apparence de la confiance. Le modèle génère ce qui est le plus probable statistiquement compte tenu du prompt, pas ce qui est vrai. Quand il n'a pas l'information, la séquence la plus probable est souvent plausible, donc fausse de manière convaincante.

Signaux qui doivent déclencher une vérification :

Citations bibliographiques précises (auteurs + titres + années + pages). Les modèles génèrent volontiers des références plausibles mais inexistantes.
Chiffres précis sans source explicite. « 73 % des étudiants… » sorti de nulle part doit être vérifié.
Commandes Bash, signatures d'APIs, options de bibliothèques. La complétion produit parfois une syntaxe qui n'existe pas.
Faits historiques pointus (date exacte, nom propre rare).

Bonnes pratiques pour les réduire : donner le matériel source dans le prompt, demander explicitement « cite tes sources, et écris "je ne sais pas" si tu n'as pas l'information », utiliser le mode agentique avec recherche web pour tout ce qui est temps réel.

Choisir le bon modèle pour la bonne tâche

Il n'y a pas un « meilleur modèle » dans l'absolu, il y a des compromis entre intelligence, vitesse et coût. Trois familles de modèles à connaître (mai 2026) :

Famille	Modèles repères	Usage type
Frontière (raisonnement)	Claude Opus, GPT-5, Gemini Ultra	Codage complexe, analyse longue, mode agentique exigeant. Plus lent, plus cher.
Équilibrés	Claude Sonnet, GPT-5 mini, Gemini Pro	Travail quotidien : rédaction, synthèse, conversation. Rapport qualité/coût optimal.
Légers / rapides	Claude Haiku, GPT-5 nano, Gemini Flash	Classification, extraction, tri, scripts. Réponses en moins d'une seconde, très peu cher.

Pour un usage personnel via une interface, prendre un modèle de la famille « frontière » par défaut, et redescendre s'il est trop lent. Pour de l'API en volume, faire l'inverse : commencer léger, monter en gamme si la qualité ne suffit pas.

Données et confidentialité

Selon les outils et les réglages, vos échanges peuvent servir à entraîner les futurs modèles. C'est désactivable sur les offres payantes professionnelles (ChatGPT Team, Claude for Work, Gemini Workspace). C'est activé par défaut sur les offres gratuites.

En contexte professionnel ou universitaire, la règle opérationnelle :

Partageable

Documents publics
Notes anonymisées
Brouillons sans données nominatives
Code open source

À ne pas partager

Données nominatives (RGPD)
Données de santé, sociales, judiciaires
Identifiants, clés API, secrets
Code propriétaire sans accord interne
Données soumises à confidentialité contractuelle

Pour les usages sensibles : modèles déployés en privé (Azure OpenAI sur tenant dédié, Bedrock, hébergement local de modèles open source comme Llama ou Mistral), avec traçabilité d'accès.

Coût économique et environnemental

Un appel API à un modèle frontière coûte typiquement entre quelques centimes et quelques dizaines de centimes par tâche, selon la longueur du contexte et de la réponse. Une conversation interactive d'une heure peut représenter de quelques dizaines de centimes à plusieurs euros, ce qui reste négligeable face au temps économisé sur une tâche qualifiée.

Sur le plan environnemental, l'entraînement d'un modèle frontière consomme l'équivalent énergétique de plusieurs centaines de foyers sur une année. L'inférence (votre requête) est beaucoup plus modeste, mais cumulée à l'échelle de centaines de millions d'utilisateurs, elle devient significative. Règle simple : ne pas utiliser un modèle frontière pour une tâche qu'un modèle léger fait aussi bien, et ne pas appeler un modèle pour ce qu'une recherche web normale fournit.

Premiers pas opérationnels

Si vous démarrez maintenant, voici un parcours sobre :

Choisir un outil et y rester deux semaines. Claude.ai ou ChatGPT, peu importe. Pas zapper d'un modèle à l'autre, c'est ce qui empêche d'apprendre les spécificités.
Tenir un fichier de prompts. Dès qu'un prompt marche bien, le sauvegarder. C'est votre bibliothèque opérationnelle. Le guide Prompts qui fonctionnent donne une structure de départ.
Identifier 3 tâches récurrentes dans votre semaine que l'IA pourrait alléger : un rapport, une catégorisation, une revue de code, une synthèse de réunion. Pas dix, trois.
Mesurer le temps gagné sur ces trois tâches. C'est ce qui vous donnera une vision claire de ce qui marche vraiment pour vous, et c'est aussi ce que vous présenterez quand on vous demandera ce que l'IA vous apporte.
Passer au mode agentique quand vous maîtrisez le mode conversation. C'est l'étape qui change tout ; elle est décrite dans le guide Mode agentique.

Pour aller plus loin

Prompts qui fonctionnent : structurer ses requêtes comme une spécification.
Mode agentique : passer de la conversation à l'exécution.
Diffuser l'IA dans une équipe : faire passer ces fondamentaux à vos collègues.