L’IA générative : un potentiel immense malgré les hallucinations
L'intelligence artificielle générative fascine autant qu'elle inquiète. Capable de produire des textes, images, sons d'un réalisme bluffant, elle promet de révolutionner de nombreux domaines. Mais une ombre plane : les "hallucinations", ces informations erronées générées par les modèles. Une étude récente révèle l'ampleur du phénomène, même chez les IA les plus avancées. Décryptage d'un défi majeur pour l'avenir de cette technologie.
GPT-4o, Claude, Gemini... tous touchés par les hallucinations
Des chercheurs de Cornell, Washington, Waterloo et AI2 ont évalué plus d'une dizaine de modèles génératifs parmi les plus en vue : GPT-4o d'OpenAI, Claude d'Anthropic, Gemini 1.5 Pro de Google... Résultat, aucun n'échappe vraiment aux hallucinations, ces affirmations factuellement fausses. Le meilleur, GPT-4o, ne fournit des réponses parfaitement exactes que dans 35% des cas !
Pour ce faire, les chercheurs ont compilé des questions pointues sur des sujets variés (droit, santé, histoire, géographie...), en évitant celles trouvant facilement réponse sur Wikipedia. Car c'est un autre enseignement de l'étude : les modèles d'IA s'appuient énormément sur l'encyclopédie en ligne, bien plus que sur le reste de leurs données d'entraînement.
La taille ne fait pas tout
Contrairement à une idée reçue, la taille du modèle n'influe pas tant que ça sur sa factualité. Ainsi, la version "light" de Claude (Haiku) fait aussi bien que la plus massive (Opus). De même, GPT-4o ne surclasse que de peu GPT-3.5, pourtant bien plus petit et ancien. Bref, la course aux modèles géants ne semble pas être la panacée face aux hallucinations.
Savoir dire "je ne sais pas", la clé ?
En analysant les résultats, les chercheurs ont découvert une piste intéressante. Les IA qui hallucinent le moins sont aussi celles qui s'abstiennent le plus souvent de répondre quand elles ne sont pas sûres. C'est notamment le cas de Claude Haiku, le plus "sincère" du lot. Répondre à tout prix semble donc augmenter le risque d'affirmations erronées.
Un problème qui va persister
Malgré les promesses de certains acteurs, l'étude suggère que les hallucinations vont rester un défi majeur pour l'IA générative. Les techniques actuelles pour les réduire (implication humaine, fact-checking, citations des sources...) ont un impact limité. Il faudra donc rester vigilant et ne pas prendre pour argent comptant ce que génèrent ces systèmes.
Nous ne pouvons pas encore faire entièrement confiance à ce que génèrent les modèles, même les meilleurs. Actuellement, ils ne produisent un texte sans hallucination que dans 35 % des cas.
Wenting Zhao, co-autrice de l'étude
L'avenir de l'IA générative en question
Cette étude ne remet pas en cause le potentiel immense de l'IA générative. Mais elle souligne l'importance de l'encadrer et d'informer sur ses limites. Utilisateurs comme décideurs devront en tenir compte. Les géants de la tech le promettent, des progrès restent possibles. Mais il faudra du temps pour que ces agents conversationnels bluffants deviennent des sources d'information absolument fiables. Un défi passionnant pour la recherche !