Le test ultime de l’AGI plus proche que jamais d’être résolu
Imaginez un test si complexe qu'il pourrait déterminer si une intelligence artificielle a atteint le Saint Graal : la capacité de raisonner comme un être humain. C'est exactement ce que prétend être le benchmark ARC-AGI, créé en 2019 par François Chollet, une figure de proue dans le monde de l'IA. Mais alors que ce test mythique semble plus proche que jamais d'être résolu, ses propres créateurs remettent en question sa conception et sa capacité à vraiment mesurer les progrès vers une IA générale.
Le benchmark ARC-AGI, un test unique en son genre
L'ARC-AGI, pour "Abstract and Reasoning Corpus for Artificial General Intelligence", a été conçu pour évaluer si un système d'IA peut efficacement acquérir de nouvelles compétences en dehors des données sur lesquelles il a été entraîné. Selon François Chollet, il reste à ce jour le seul test permettant de mesurer les progrès vers une intelligence générale.
Jusqu'à cette année, la meilleure IA ne pouvait résoudre qu'un peu moins d'un tiers des tâches de l'ARC-AGI. Chollet pointait du doigt la focalisation de l'industrie sur les grands modèles de langage (LLM), qu'il estime incapables d'un véritable "raisonnement".
Les LLM ont du mal à généraliser, car ils reposent entièrement sur la mémorisation. Ils échouent sur tout ce qui n'était pas dans leurs données d'entraînement.
– François Chollet
Des progrès spectaculaires en 2024
Pour inciter la recherche au-delà des LLM, Chollet et Mike Knoop, co-fondateur de Zapier, ont lancé en juin une compétition dotée d'un million de dollars pour construire une IA open-source capable de battre l'ARC-AGI. Sur 17 789 soumissions, la meilleure a obtenu un score de 55,5% - environ 20% de plus que le meilleur score de 2023, mais loin du seuil de 85% considéré comme le niveau humain requis pour gagner.
Cependant, selon Knoop, cela ne signifie pas que nous sommes 20% plus près de l'AGI. Beaucoup de soumissions ont pu "forcer" leur chemin vers une solution, suggérant qu'une grande partie des tâches de l'ARC-AGI ne portent pas vraiment de signal utile vers l'intelligence générale.
Un test imparfait ?
L'ARC-AGI consiste en des problèmes sous forme de puzzles où une IA doit générer la bonne grille "réponse" à partir d'un ensemble de carrés de différentes couleurs. Ces problèmes ont été conçus pour forcer une IA à s'adapter à de nouvelles situations jamais rencontrées auparavant. Mais il n'est pas certain qu'ils y parviennent réellement.
Le benchmark ARC-AGI n'a pas changé depuis 2019 et n'est pas parfait.
– Mike Knoop
Chollet et Knoop ont également été critiqués pour avoir survendu l'ARC-AGI comme un benchmark vers l'AGI, d'autant plus que la définition même de l'AGI est actuellement très contestée. Un membre de l'équipe d'OpenAI a récemment affirmé que l'AGI a "déjà" été atteinte si on la définit comme une IA "meilleure que la plupart des humains dans la plupart des tâches".
Vers un nouveau benchmark en 2025
Pour répondre à ces problèmes, Knoop et Chollet prévoient de sortir un benchmark ARC-AGI de seconde génération, accompagné d'une nouvelle compétition en 2025. Leur objectif : diriger les efforts de la communauté de recherche vers ce qu'ils considèrent comme les problèmes les plus importants et non résolus en IA, et accélérer la timeline vers l'AGI.
Mais les corrections ne seront probablement pas faciles. Si les lacunes du premier test ARC-AGI sont une indication, définir l'intelligence pour une IA sera aussi complexe et clivant que cela l'a été pour les êtres humains. La quête de l'AGI semble encore longue, semée d'embûches et de débats passionnés. Le test ultime est peut-être plus proche que jamais d'être résolu, mais le chemin vers une véritable intelligence artificielle générale reste incertain.