IMAT137
Retour au blog
News IA··6 min

Chain of Thought : comment un LLM 'raisonne' réellement

Pourquoi demander à un modèle de raisonner étape par étape multiplie sa précision sur les problèmes complexes. Une astuce de prompt, un mécanisme profond.

Chain of Thought : comment un LLM 'raisonne' réellement

En 2022, une équipe de Google publie un papier qui change discrètement la manière dont on utilise les LLM. La technique tient en une phrase : avant de donner ta réponse, raisonne étape par étape. Le résultat : sur les problèmes de mathématiques de niveau scolaire, la précision des modèles passe de 18 % à 57 %. Le mécanisme s'appelle Chain of Thought.

Le principe

Un LLM génère du texte token par token. À chaque étape, il calcule la probabilité du token suivant en fonction de tout le contexte qui précède. Si on lui demande directement « combien font 47 × 18 », il essaie de produire la réponse en un seul jet — et se trompe souvent, parce qu'il interpole sur un calcul qu'il n'a pas mémorisé exactement.

Mais si on lui demande de poser le calcul d'abord, chaque ligne de raisonnement qu'il produit devient elle-même du contexte pour les tokens suivants. Le modèle peut s'appuyer sur « 47 × 10 = 470 » pour produire « 47 × 8 = 376 », puis sommer. Le raisonnement explicite devient une mémoire de travail externalisée dans le contexte.

Pourquoi ça marche profondément

La raison technique est simple mais frappante. Un LLM dispose d'un budget de calcul fixé par étape de prédiction. Forcer une réponse directe, c'est lui demander de tenir tout le raisonnement en une seule passe — ce qu'il ne sait pas faire pour un problème complexe. Décomposer en étapes, c'est lui donner plusieurs passes successives, chacune utilisant la précédente comme appui.

C'est pourquoi le Chain of Thought ne fonctionne vraiment qu'à partir d'une certaine taille de modèle. En dessous, le modèle n'a pas la capacité d'apprendre les patterns de raisonnement structuré. Au-dessus, le simple fait de l'autoriser à raisonner change radicalement la qualité.

Les variantes qui ont suivi

Depuis 2022, la famille s'est élargie. Self-Consistency : générer plusieurs chaînes de raisonnement et voter sur la réponse majoritaire. Tree of Thoughts : explorer plusieurs branches de raisonnement en parallèle. Self-Reflection : demander au modèle de critiquer sa propre réponse avant de la finaliser.

Les modèles récents — comme la série o1 d'OpenAI ou les modèles « reasoning » de Claude et de Gemini — ont internalisé cette logique : ils raisonnent automatiquement avant de répondre, sans qu'on ait besoin de le demander. Le Chain of Thought est passé d'astuce de prompt à composant architectural.

Là où le CoT n'aide pas

Il y a des cas où raisonner explicitement n'apporte rien — voire dégrade. Pour une question de connaissance directe (« quelle est la capitale de la France »), forcer un raisonnement allonge inutilement la sortie et peut introduire des erreurs par sur-interprétation. Pour des tâches purement créatives, le raisonnement structuré peut brider.

La règle pratique : utiliser le CoT quand le problème a une structure logique ou calculatoire. L'éviter quand la réponse est dans la mémoire du modèle ou demande de l'intuition.

Auteur

Marcus Détrez

Fondateur d’IMAT137 et de LSI. Consultant en stratégie technologique et formation.

LinkedIn

Continuer la lecture