L’IA Multimodale à l’Épreuve de Tests Visuels Élémentaires

Accueil - Technologies et Avenirs - Intelligence Artificielle - L’IA Multimodale à l’Épreuve de Tests Visuels Élémentaires
LIA Multimodale à lÉpreuve de Tests Visuels Élémentaires   Innovationsfr
juillet 12, 2024

L’IA Multimodale à l’Épreuve de Tests Visuels Élémentaires

Alors que les derniers modèles de langage comme GPT-4o et Gemini 1.5 Pro sont vantés pour leurs capacités "multimodales", permettant de comprendre aussi bien le texte que les images et le son, une nouvelle étude vient jeter un pavé dans la mare. Des chercheurs de l'Université d'Auburn et de l'Université d'Alberta ont en effet mis à l'épreuve ces modèles sur une série de tâches visuelles extrêmement simples. Les résultats sont pour le moins troublants et remettent en question la notion même de "vision" attribuée à ces intelligences artificielles.

Des Tests Visuels Élémentaires qui Posent Problème

Les chercheurs ont soumis les plus grands modèles multimodaux actuels à une batterie de tests visuels basiques, comme déterminer si deux formes se chevauchent, compter le nombre de pentagones dans une image ou encore identifier quelle lettre est entourée dans un mot. Des tâches qu'un enfant en primaire réussirait sans sourciller, mais qui ont donné du fil à retordre aux IA.

Chevauchement de Formes : Un Casse-Tête pour l'IA

Prenons l'exemple du test de chevauchement de formes, l'un des plus simples en termes de raisonnement visuel. Face à deux cercles légèrement superposés, se touchant à peine ou espacés, les modèles peinent à répondre de manière cohérente. Si GPT-4o atteint plus de 95% de réussite lorsque les cercles sont éloignés, ses performances chutent à 18% pour de faibles distances ou un contact. Gemini Pro 1.5 s'en sort le mieux, mais plafonne tout de même à 70% dans ces cas limites.

Dénombrer des Formes Imbriquées, un Défi Insurmontable ?

Autre exemple édifiant, compter le nombre de cercles interconnectés dans une image. Avec cinq anneaux, tous les modèles réussissent parfaitement. Mais il suffit d'en ajouter un sixième pour que les résultats s'effondrent. Gemini est complètement perdu, incapable de donner la bonne réponse. Sonnet-3.5 répond correctement dans un tiers des cas seulement, et GPT-4o à peine une fois sur deux. Ajouter un septième anneau empire les choses, mais étrangement, un huitième facilite la tâche pour certains.

Nos sept tâches sont extrêmement simples, là où les humains auraient une précision de 100%. Nous nous attendons à ce que les IA fassent de même, mais elles n'y arrivent actuellement PAS.

– Anh Nguyen, co-auteur de l'étude

Une "Vision" Artificielle Approximative et Abstraite

Ces fluctuations de performance, sans logique apparente, suggèrent que les modèles ne "voient" pas réellement les images qui leur sont présentées. Ils semblent plutôt en extraire des informations approximatives et abstraites, comme "il y a un cercle sur la gauche", sans réelle compréhension visuelle. Comme quelqu'un à qui l'on décrirait une image sans la lui montrer.

Cette hypothèse est renforcée par un dernier test mettant en scène deux cercles, un bleu et un vert, qui se chevauchent. Lorsqu'on demande aux modèles la couleur de la zone de superposition, plusieurs répondent "cyan", comme on pourrait s'y attendre dans un diagramme de Venn. Une réponse qui serait plausible... si les yeux étaient fermés ! Mais aucune personne voyante ne donnerait cette réponse en regardant l'image.

Des Limites à Nuancer, Pas une Inutilité Totale

Ces résultats ne signifient pas pour autant que ces modèles d'IA "visuels" sont dénués d'intérêt. Ils restent certainement très performants sur des tâches pour lesquelles ils ont été spécifiquement entraînés, comme reconnaître des objets, des actions ou des expressions humaines dans des photos. Mais cette étude a le mérite de montrer que leur "vision", aussi impressionnante soit-elle dans certains cas, n'a rien à voir avec celle des humains et souffre de limitations fondamentales en termes de raisonnement.

Une Piqûre de Rappel Salutaire

Au-delà de la prouesse technologique, ces travaux nous rappellent à quel point la vision humaine, qui nous semble si naturelle, est en réalité d'une complexité et d'une subtilité inouïes. Avant de parler d'IA qui "voient" comme nous, il faudra encore franchir de nombreuses étapes. Et cette piqûre de rappel est plus que jamais nécessaire à l'heure où le battage médiatique autour de ces modèles pourrait nous faire oublier leurs limites bien réelles.

Partager:

Ajouter Un Commentaire

Chercher

Étiquettes

abus technologie Accord OpenAI Apple accélérateur innovation santé accélérateur startup accélérateur startups Acquisition start-up acquisition stratégique Amazon actions fintech addiction réseaux sociaux adoption IA générative adoption intelligence artificielle all4pack emballages durables innovations packaging écoconception économie circulaire Alphabet financement Andreessen Horowitz Twitter influence réseaux sociaux capital risque autonomie véhicules électriques avenir IA générative avenir intelligence artificielle barquettes inox consigne réduction déchets Berny transition écologique BoJ politique monétaire relance économique achats d'obligations transition monétaire campus cybersécurité chiffres inflation cloud computing commissaires vie privée confiance intelligence artificielle controverse Elon Musk crise financement startups cybersécurité web3 données personnelles défis start-ups défis véhicules autonomes expansion internationale expérience utilisateur Géotechnique Décarbonation industrie Empreinte carbone Transition énergétique Prototype innovant IA conversationnelle Imagino levée de fonds marketing digital données clients expansion internationale Industrie du futur Relocalisation industrielle Transition écologique Startups deeptech Souveraineté technologique mobilité urbaine Radware Bot startup innovante startups innovantes transformation numérique transition énergétique Écosystème startup Innovation technologique Résilience entrepreneuriale Défis startups Croissance startup Canada économie circulaire énergies renouvelables

Beauty and lifestyle influencer

Follow my journey on all Social Media channels

Alienum phaedrum torquatos nec eu, vis detraxit periculis ex, nihilmei. Mei an pericula euripidis, hinc partem ei est.
facebook
5M+
Facebook followers
Follow Me
youtube
4.6M+
Youtube Subscribers
Subscribe Me
tiktok
7M+
Tiktok Followers
Follow Me
instagram
3.4M+
Instagram Followers
Follow Me