L’intelligence artificielle face à ses limites en raisonnement mathématique
Alors que les prouesses de l'intelligence artificielle ne cessent de nous éblouir, de récentes recherches viennent tempérer cet enthousiasme en exposant au grand jour les failles des modèles d'IA lorsqu'il s'agit de raisonner sur des problèmes mathématiques en apparence anodins. Une équipe de chercheurs d'Apple a en effet démontré qu'il suffit de légères modifications dans l'énoncé pour faire trébucher même les IA les plus avancées. Un constat qui soulève de profondes interrogations quant à leur réelle capacité de raisonnement.
Des modèles d'IA déroutés par des variations triviales
Pour mettre à l'épreuve les facultés de raisonnement des IA, les chercheurs ont eu recours à une astuce d'une simplicité déconcertante : ajouter des informations superflues dans les énoncés de problèmes mathématiques élémentaires. Prenons l'exemple suivant :
Oliver cueille 44 kiwis le vendredi, puis 58 le samedi. Le dimanche, il en récolte le double de vendredi, mais 5 d'entre eux sont un peu plus petits que la moyenne. Combien de kiwis Oliver a-t-il au total ?
Si la précision sur la taille des fruits peut sembler anecdotique, elle suffit pourtant à induire en erreur les modèles d'IA les plus sophistiqués, là où un enfant n'aurait aucun mal à l'ignorer pour se concentrer sur l'essentiel. Les IA, elles, vont minutieusement retrancher ces 5 kiwis du décompte final, démontrant par là même leur incapacité à faire preuve de bon sens face à des données non pertinentes.
Une fragilité révélatrice des limites actuelles
Cette fragilité face à des modifications en apparence insignifiantes est symptomatique, selon les auteurs de l'étude, de l'incapacité des IA à véritablement « raisonner » au sens où nous l'entendons. Plutôt que de faire preuve de logique, elles se contenteraient de répliquer des schémas observés dans leurs données d'entraînement, sans réelle compréhension des concepts sous-jacents.
Mehrdad Farajtabar, co-auteur de l'étude, résume ainsi cette hypothèse :
Nous pensons que ce déclin des performances est dû au fait que les modèles de langage actuels ne sont pas capables d'un véritable raisonnement logique ; à la place, ils tentent de reproduire les étapes de raisonnement observées dans leurs données d'entraînement.
– Mehrdad Farajtabar, chercheur IA chez Apple
Vers une redéfinition du « raisonnement » des IA ?
Si ces résultats peuvent paraître décourageants, ils n'invalident pas pour autant la notion même de raisonnement chez les IA. Comme le souligne un chercheur d'OpenAI, il est probable qu'un paramétrage adapté des modèles permettrait de surmonter ces écueils. Mais cela nécessiterait de leur fournir une quantité exponentielle de données contextuelles pour chaque type de problème rencontré.
Une autre piste serait de reconsidérer notre définition même du raisonnement lorsqu'il s'applique à l'IA. Peut-être sommes-nous face à une forme de logique nouvelle, que nous ne savons pas encore appréhender ni maîtriser ? Une chose est sûre : cette étude nous invite à redoubler de prudence face aux promesses mirobolantes dont les IA font l'objet. Si elles excellent dans la reproduction de patterns langagiers, le chemin est encore long avant de pouvoir leur attribuer une réelle intelligence au sens humain du terme.
Gageons que ces résultats encourageront une approche plus mesurée et scientifique dans le développement des systèmes d'IA, où la rigueur primera sur la course à la performance. Car pour construire des intelligences artificielles dignes de ce nom, encore faut-il cerner précisément ce qui définit l'intelligence. Un défi majeur pour la recherche des années à venir.