Les prompts en chaîne de pensée zero-shot ont propulsé la précision de text-davinci-002 sur MultiArith de 17,7 % à 78,7 %.
Boum. Pas une coquille — c’est le genre de bond qui vous laisse bouche bée, comme si un bambin démontait un Rubik’s Cube en un clin d’œil. Les systèmes de raisonnement IA ne se contentent plus de régurgiter des patterns ; ils commencent à cogiter, pas à pas, avec acharnement. Et le plus dingue ? Ce n’est pas un gadget de labo. Ça redessine déjà la construction de notre futur.
Vous vous souvenez de Sally et sa balle ? Elle la range dans un panier, sort, Anne la déplace dans une boîte. Sally revient — où cherche-t-elle ? Les gosses cartonnent à ce test de « fausse croyance » dès cinq ans. L’IA ? Elle a galéré des décennies. Mais les proxies du test de Turing en 2024 montrent que les grands modèles de langage dupent les humains au bavardage de plus en plus souvent, signe que la théorie de l’esprit s’infiltre.
Attendez, c’est quoi la théorie de l’esprit — et pourquoi les devs devraient s’y intéresser ?
La théorie de l’esprit, c’est ce superpouvoir humain qui vous permet de repérer quand un pote vous raconte des salades, d’anticiper sa crise si vous lâchez une mauvaise nouvelle, ou de bosser en équipe sur un projet retors sans baby-sitting permanent. Sans ça, vous êtes un génie solitaire, brillant mais aveugle à l’échiquier social.
L’IA a joué les ermites. Aujourd’hui ? Des fissures apparaissent. Sur des benchmarks comme MMLU, les écarts explosent entre GPT-3.5 et GPT-4 — gains de 20-30 points sur des mashups raisonnement multi-étapes mêlant savoir et sens commun. Les praticiens en jurent pour leurs déploiements ; pas question de simple mémoire.
Mais le vrai feu d’artifice ? La chaîne de pensée. Lancée en 2022, elle se résume à : « Montre ton travail. »
Tenez, ce bijou :
Problème : Si vous avez 3 pommes, en donnez 2, puis en achetez 5 de plus, combien en avez-vous ?
Sans CoT : 6 Avec CoT : Étape 1 : On commence avec 3 pommes Étape 2 : On donne 2 → 3 - 2 = 1 pomme restante Étape 3 : On achète 5 de plus → 1 + 5 = 6 pommes Réponse : 6
Évident, non ? Pourtant, ça transforme l’échec en triomphe. Pourquoi ? Trois pistes : la décomposition allège la charge mentale (comme votre brouillon), l’auto-vérification coince les bourdes tôt, l’attention se focalise sur l’essentiel. Chacun joue — sans savoir la recette exacte.
Et elle n’est pas seule. L’auto-consistance — générer plusieurs voies, voter pour la meilleure — ajoute 17,9 % sur GSM8K en maths. L’arbre de pensée bifurque comme un livre dont vous êtes le héros. Ça pue l’exploration, pas la récitation.
Les grands modèles de langage débloquent-ils la pensée Système 2 ?
Daniel Kahneman l’a cloué : le Système 1, c’est votre intuition fulgurante ; le Système 2, le penseur lent et méthodique. Les LLM tournent en Système 1 par défaut — maîtres du pattern-matching express. Mais injectez CoT ou vote ? Ça bascule en moulinage délibéré, comme un flic assemblant des indices.
Les données confirment. Le carton de GPT-4 sur MMLU face à GPT-3.5 reflète ce que les équipes voient en prod : des workflows de raisonnement qui tiennent la route. C’est un basculement de plateforme, les amis — l’IA passe d’assistant auto-complétion à cerveau collaboratif.
Mon avis, celui que vous ne trouverez pas dans les rapports originaux : ça rappelle le passage de l’abaque au calcul infinitésimal dans l’histoire humaine. Avant le calcul ? Les marchands tenaient leurs comptes sans broncher. Mais débloquez dérivées et intégrales ? Boum — empires d’ingénieurs, fusées lunaires. La chaîne de pensée de l’IA, c’est ce moment calcul. Prédiction audacieuse : dans deux ans, des outils dev intégrant des agents à théorie de l’esprit co-piloteront vos codebases, flairant des intentions users qu’on loupe, transformant les solos en symphonies.
Sceptique ? Légiti