Benchmarking de Modèles d’IA : Le Défi des Puzzles NPR
Imaginez un défi intellectuel hebdomadaire, diffusé à des milliers d'auditeurs passionnés, mettant à l'épreuve leurs capacités de réflexion et de logique. C'est exactement ce que propose l'émission "Sunday Puzzle" de la NPR, animée par le maître des mots croisés du New York Times, Will Shortz. Mais ces énigmes ne sont plus seulement réservées aux humains. Une équipe de chercheurs a eu l'idée ingénieuse d'utiliser ces casse-têtes pour évaluer les limites du raisonnement des modèles d'intelligence artificielle les plus avancés.
Un benchmark ludique et accessible pour tester les IA
L'industrie de l'IA est confrontée à un défi de taille en matière d'évaluation des modèles. La plupart des tests existants se concentrent sur des compétences pointues, comme la résolution de questions de niveau doctorat en mathématiques ou en sciences, qui ne sont pas pertinentes pour l'utilisateur moyen. De plus, de nombreux benchmarks approchent rapidement de leur point de saturation.
C'est là que les puzzles du dimanche de la NPR entrent en jeu. Comme l'explique Arjun Guha, membre de l'équipe de recherche, ces énigmes ne nécessitent pas de connaissances ésotériques et sont formulées de manière à ce que les modèles ne puissent pas simplement s'appuyer sur leur "mémoire par cœur" pour les résoudre. Cela en fait un excellent moyen de tester les capacités de raisonnement des IA dans des conditions proches du monde réel.
Des résultats surprenants et révélateurs
L'étude, qui a porté sur environ 600 énigmes du Sunday Puzzle, a mis en lumière des comportements étonnants chez certains modèles d'IA. Par exemple, le modèle R1 de DeepSeek a parfois admis littéralement "abandonner" avant de donner une réponse incorrecte choisie apparemment au hasard. D'autres modèles se sont emmêlés les pinceaux, donnant une mauvaise réponse pour la rétracter immédiatement, essayant d'en trouver une meilleure, et échouant à nouveau.
Sur les problèmes difficiles, R1 dit littéralement qu'il est "frustré". C'était amusant de voir comment un modèle émule ce qu'un humain pourrait dire.
Arjun Guha, chercheur
Les modèles de raisonnement tirent leur épingle du jeu
Parmi les modèles testés, ceux axés sur le raisonnement, comme o1 d'OpenAI et R1 de DeepSeek, ont obtenu les meilleurs scores. Ces modèles vérifient soigneusement leurs réponses avant de les donner, ce qui les aide à éviter certains pièges. Le revers de la médaille est qu'ils mettent un peu plus de temps à trouver les solutions, généralement quelques secondes à quelques minutes de plus que les autres.
Le modèle o1 arrive en tête avec un score de 59%, suivi de o3-mini d'OpenAI réglé sur un "effort de raisonnement" élevé (47%). R1 obtient quant à lui 35%. Les chercheurs prévoient d'étendre leurs tests à d'autres modèles de raisonnement, dans l'espoir d'identifier des pistes d'amélioration pour ces IA prometteuses.
Vers des benchmarks plus accessibles et représentatifs
Cette étude souligne l'importance de développer des benchmarks qui ne nécessitent pas de connaissances de niveau doctorat pour être compris et analysés. Comme le souligne Arjun Guha :
Un benchmark plus accessible permet à un plus grand nombre de chercheurs d'appréhender et d'analyser les résultats, ce qui peut à terme conduire à de meilleures solutions.
Arjun Guha, chercheur
Alors que les modèles d'IA état de l'art sont de plus en plus déployés dans des contextes qui affectent tout le monde, il est crucial que chacun puisse intuitivement comprendre ce dont ces modèles sont capables ou non. Des initiatives comme celle-ci, utilisant un contenu familier et ludique pour tester les IA, ouvrent la voie à une évaluation plus représentative et démocratique de ces technologies qui façonnent notre futur.