juillet 12, 2024

L’IA Multimodale à l’Épreuve de Tests Visuels Élémentaires

Intelligence Artificielle
4 min de lecture
Modifier l'Article
671 Vues
Steven Soarez
0 Comments

Alors que les derniers modèles de langage comme GPT-4o et Gemini 1.5 Pro sont vantés pour leurs capacités "multimodales", permettant de comprendre aussi bien le texte que les images et le son, une nouvelle étude vient jeter un pavé dans la mare. Des chercheurs de l'Université d'Auburn et de l'Université d'Alberta ont en effet mis à l'épreuve ces modèles sur une série de tâches visuelles extrêmement simples. Les résultats sont pour le moins troublants et remettent en question la notion même de "vision" attribuée à ces intelligences artificielles.

Des Tests Visuels Élémentaires qui Posent Problème

Les chercheurs ont soumis les plus grands modèles multimodaux actuels à une batterie de tests visuels basiques, comme déterminer si deux formes se chevauchent, compter le nombre de pentagones dans une image ou encore identifier quelle lettre est entourée dans un mot. Des tâches qu'un enfant en primaire réussirait sans sourciller, mais qui ont donné du fil à retordre aux IA.

Chevauchement de Formes : Un Casse-Tête pour l'IA

Prenons l'exemple du test de chevauchement de formes, l'un des plus simples en termes de raisonnement visuel. Face à deux cercles légèrement superposés, se touchant à peine ou espacés, les modèles peinent à répondre de manière cohérente. Si GPT-4o atteint plus de 95% de réussite lorsque les cercles sont éloignés, ses performances chutent à 18% pour de faibles distances ou un contact. Gemini Pro 1.5 s'en sort le mieux, mais plafonne tout de même à 70% dans ces cas limites.

Dénombrer des Formes Imbriquées, un Défi Insurmontable ?

Autre exemple édifiant, compter le nombre de cercles interconnectés dans une image. Avec cinq anneaux, tous les modèles réussissent parfaitement. Mais il suffit d'en ajouter un sixième pour que les résultats s'effondrent. Gemini est complètement perdu, incapable de donner la bonne réponse. Sonnet-3.5 répond correctement dans un tiers des cas seulement, et GPT-4o à peine une fois sur deux. Ajouter un septième anneau empire les choses, mais étrangement, un huitième facilite la tâche pour certains.

Nos sept tâches sont extrêmement simples, là où les humains auraient une précision de 100%. Nous nous attendons à ce que les IA fassent de même, mais elles n'y arrivent actuellement PAS.
– Anh Nguyen, co-auteur de l'étude

Une "Vision" Artificielle Approximative et Abstraite

Ces fluctuations de performance, sans logique apparente, suggèrent que les modèles ne "voient" pas réellement les images qui leur sont présentées. Ils semblent plutôt en extraire des informations approximatives et abstraites, comme "il y a un cercle sur la gauche", sans réelle compréhension visuelle. Comme quelqu'un à qui l'on décrirait une image sans la lui montrer.

Cette hypothèse est renforcée par un dernier test mettant en scène deux cercles, un bleu et un vert, qui se chevauchent. Lorsqu'on demande aux modèles la couleur de la zone de superposition, plusieurs répondent "cyan", comme on pourrait s'y attendre dans un diagramme de Venn. Une réponse qui serait plausible... si les yeux étaient fermés ! Mais aucune personne voyante ne donnerait cette réponse en regardant l'image.

Des Limites à Nuancer, Pas une Inutilité Totale

Ces résultats ne signifient pas pour autant que ces modèles d'IA "visuels" sont dénués d'intérêt. Ils restent certainement très performants sur des tâches pour lesquelles ils ont été spécifiquement entraînés, comme reconnaître des objets, des actions ou des expressions humaines dans des photos. Mais cette étude a le mérite de montrer que leur "vision", aussi impressionnante soit-elle dans certains cas, n'a rien à voir avec celle des humains et souffre de limitations fondamentales en termes de raisonnement.

Une Piqûre de Rappel Salutaire

Au-delà de la prouesse technologique, ces travaux nous rappellent à quel point la vision humaine, qui nous semble si naturelle, est en réalité d'une complexité et d'une subtilité inouïes. Avant de parler d'IA qui "voient" comme nous, il faudra encore franchir de nombreuses étapes. Et cette piqûre de rappel est plus que jamais nécessaire à l'heure où le battage médiatique autour de ces modèles pourrait nous faire oublier leurs limites bien réelles.

L’IA Multimodale à l’Épreuve de Tests Visuels Élémentaires