AI Research

ADeLe : 88 % de précision en prédiction des performances IA

Imaginez savoir exactement pourquoi votre IA cale sur une tâche – avant même que ça arrive. ADeLe y parvient, avec 88 % de précision sur des géants comme GPT-4o.

Graphiques radiaux de profils de capacités comparant des modèles IA comme GPT-4o issus de la recherche ADeLe

Key Takeaways

  • ADeLe prédit les performances IA sur des tâches inédites à 88 % de précision grâce à des scores sur 18 capacités essentielles.
  • Il débusque les failles des benchmarks actuels, comme les dépendances cachées aux compétences ou les plages de difficulté trop étroites.
  • Les profils des modèles mettent en lumière forces et faiblesses, balisant la voie vers une sélection et un déploiement IA plus malins.

88 % de précision. Pas une faute de frappe. Des chercheurs viennent de dénicher un moyen de prédire comment n’importe quel modèle d’IA gérera des tâches totalement nouvelles, en réussissant 88 % du temps – même pour des mastodontes comme GPT-4o et Llama-3.1.

Imaginez : les benchmarks IA d’aujourd’hui ? C’est comme filer à quelqu’un un test de conduite, un puzzle d’échecs et un quiz de culture générale, faire la moyenne des scores et décréter ‘intelligent’. Inutile dans le monde réel. Mais ADeLe ? C’est le GPS des cerveaux IA.

Et voilà le clou du spectacle.

Des chercheurs de Microsoft, associés à Princeton et à des cracks espagnols, larguent la bombe dans Nature. Ils l’ont baptisé ADeLe – évaluation IA par niveaux de demande. Fini les tests éparpillés : tout se réduit à 18 capacités essentielles – raisonnement, attention, connaissances sectorielles, vous voyez le topo. Les tâches sont notées de 0 à 5 sur chacune. Les modèles subissent le même profiling. Boum – on les aligne, on prédit les performances.

Qu’est-ce qui fait d’ADeLe un game-changer pour les tests IA ?

Pensez à un rapport de scouting de super-héros. Superman imbattable en vol, nul en magie ? ADeLe dessine ces graphiques radiaux – toiles d’araignée de forces et de faiblesses – qui montrent pile où GPT-4o excelle en raisonnement quantitatif mais trébuche sur l’inférence sociale. Les vieux modèles peinent partout ; les récents cartonnent en logique et abstraction. C’est vivant. Visuel. Le genre de carte qui change les devinettes IA en science pure.

Mais attendez, ça explique aussi les plantages. Ce benchmark où votre modèle s’écroule ? ADeLe révèle que ce n’est pas qu’il est ‘con’, juste qu’il manque de métacognition ou de la capacité sournoise exigée par la tâche. Fini les mystères de boîte noire.

ADeLe peut-il débusquer les mensonges des benchmarks actuels ?

Soyons clairs, les évaluations d’aujourd’hui ? Elles sont bancales. Beaucoup ne testent même pas ce qu’elles prétendent. Un test de ‘logique’ blindé de trivia ? Cochez. Des plages de difficulté étroites qui zappent les victoires faciles ou les défis corsés ? Double coche.

« Beaucoup de benchmarks largement utilisés donnent une image incomplète et parfois trompeuse des capacités des modèles, et une approche plus structurée peut clarifier ces lacunes. »

C’est tiré mot pour mot du papier. ADeLe met tout à nu en notant les tâches pour exposer les décalages. Concevoir de meilleurs benchmarks ? Prédire les fails sur des inédits ? Banco.

Et la prédiction – 88 % sur 15 LLM. Pas du vent ; testé en labo sur les bêtes que vous pilotez au quotidien.

Incroyable.

Maintenant, mon avis tranché – et c’est l’angle que personne ne crie encore. Vous vous rappelez le SAT ? Il prédisait pas mal le succès à l’université, permettant aux comités d’admission de miser sur le potentiel sans essais. ADeLe, c’est pareil pour l’IA. On approche d’un ‘marché des capacités’ : branchez les exigences de votre tâche, scannez les profils des modèles, sélectionnez le champion. Fini la roulette russe des déploiements. Dans deux ans ? Tout achat d’IA en entreprise démarrera par un score ADeLe. C’est la loi de Moore de l’évaluation : standardisée, scalable, prédictive.

Pourquoi les devs (et tout le monde) devraient s’y intéresser tout de suite

Vous bossez sur une app ? Foutez les scores agrégés à la poubelle. Les profils ADeLe disent si Llama-3.1 est votre rockstar du raisonnement ou un simple perroquet à savoirs. Les déploiements gagnent en sécurité – anticipez les crashs avant qu’ils plombent votre prod.

À plus grande échelle : imaginez des essaims d’agents, chacun spécialisé via ADeLe. Un pour les maths, un pour le small talk. Le virage plateforme ? L’IA quitte le monolithe pour une superintelligence modulaire.

Mais – et ouais, le scepticisme c’est mon dada – 88 % ça suffit ? Pour du critique genre médecine ? Mouais. C’est

James Kowalski
Written by

Investigative tech reporter focused on AI ethics, regulation, and societal impact.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Microsoft Research AI