Les limites des IA génératives d’après de nouvelles études
Gemini, la suite de modèles d'IA générative de Google, impressionne par sa capacité à ingérer et traiter d'immenses quantités de données, ou du moins c'est ce que prétend la firme de Mountain View. Mais que valent réellement ces prouesses techniques ? Deux études indépendantes viennent semer le doute sur les véritables capacités analytiques de ces IA dernier cri.
Un "long contexte" qui manque de profondeur
Le principal argument de vente de Gemini 1.5 Pro et 1.5 Flash réside dans leur "long contexte", autrement dit la taille impressionnante des jeux de données qu'ils peuvent absorber. Google s'est vanté de pouvoir ainsi résumer des centaines de pages de documents ou encore rechercher des scènes précises dans de longues vidéos. Sauf que dans les faits, les choses semblent beaucoup moins idylliques.
Une première étude, menée par des chercheurs de UMass Amherst, de l'Allen Institute for AI et de Princeton, a testé Gemini 1.5 Pro et Flash sur leur compréhension de romans en anglais. Verdict : à peine 50% de bonnes réponses à des questions basiques sur l'intrigue ! Un constat sans appel selon Marzena Karpinska, chercheuse à UMass Amherst et co-autrice de l'étude :
Même si ces modèles peuvent techniquement traiter de longs contextes, nous avons observé de nombreux cas indiquant qu'ils ne "comprennent" pas réellement le contenu.
– Marzena Karpinska, chercheuse à UMass Amherst
Des IA qui peinent sur l'implicite
En pratique, les IA génératives comme Gemini semblent avoir du mal dès qu'il s'agit d'appréhender de larges portions d'un texte, et encore plus l'intégralité d'un ouvrage. Elles butent notamment sur les informations implicites, pourtant limpides pour un lecteur humain.
Vidéos : des résultats guère plus glorieux
Une seconde étude de l'UC Santa Barbara s'est penchée sur les capacités de Gemini 1.5 Flash à analyser des vidéos. Là encore, les résultats déçoivent : à peine 30% de réussite pour retranscrire 8 chiffres répartis dans une succession de 25 images. Michael Saxon, doctorant et co-auteur, se désole :
Cette petite dose de raisonnement - reconnaître un chiffre dans une image et le lire - semble déjà trop compliquée pour tous les modèles que nous avons testés.
– Michael Saxon, doctorant à l'UC Santa Barbara
Google, coupable de surjouer les capacités de Gemini ?
Bien que préliminaires, ces études mettent sérieusement en doute les promesses de Google autour de Gemini et de son fameux "long contexte". La firme apparaît comme la seule à autant mettre en avant cet aspect dans sa communication, au risque de surestimer les prouesses réelles de ses IA.
Un emballement marketing symptomatique d'un certain "hype" autour de l'IA générative, qui commence à se heurter au scepticisme grandissant des entreprises et des investisseurs face aux limitations concrètes de ces technologies. Les attentes démesurées cèdent ainsi le pas à un regard plus lucide et critique.
Une culture des benchmarks à revoir
Pour les chercheurs à l'origine de ces analyses, il est urgent de développer de meilleurs benchmarks afin de vraiment évaluer les capacités des IA génératives, au-delà des effets d'annonce. Michael Saxon souligne notamment les limites des tests de type "aiguille dans une botte de foin", souvent cités par Google :
Scientifiques et ingénieurs s'accordent à dire que notre culture actuelle des benchmarks est cassée. Il faut que le public comprenne qu'il doit prendre ces chiffres "d'intelligence générale" avec d'immenses pincettes.
– Michael Saxon, doctorant à l'UC Santa Barbara
En attendant ce nécessaire changement de paradigme, difficile de se fier aveuglément aux belles paroles des géants de la Tech sur leurs IA dernier cri. Un sain recul s'impose plus que jamais pour distinguer le bluff du réel potentiel de ces technologies fascinantes mais encore limitées. L'avenir dira si Gemini et consorts sauront, à terme, réellement tenir leurs audacieuses promesses.