L’IA peine à maîtriser l’histoire selon une nouvelle étude
Si l'intelligence artificielle (IA) excelle dans certaines tâches comme la programmation ou la génération de podcasts, une nouvelle étude révèle qu'elle peine encore à réussir un examen d'histoire de haut niveau. Une équipe de chercheurs a mis au point un benchmark inédit, baptisé Hist-LLM, pour tester les capacités historiques de trois des principaux modèles de langage : GPT-4 d'OpenAI, Llama de Meta et Gemini de Google.
Un test sans appel pour les IA
Le benchmark Hist-LLM évalue la validité des réponses fournies par les IA en se basant sur la base de données historiques Seshat Global History Databank, nommée d'après la déesse égyptienne de la sagesse. Malheureusement, les résultats présentés lors de la prestigieuse conférence NeurIPS se sont avérés décevants selon les chercheurs affiliés au Complexity Science Hub (CSH) basé en Autriche.
Le modèle le plus performant, GPT-4 Turbo, n'a atteint qu'une précision d'environ 46%, à peine plus élevée qu'une réponse au hasard. Maria del Rio-Chanona, co-auteure de l'étude, résume ainsi les conclusions :
Les modèles de langage, bien qu'impressionnants, manquent encore de la profondeur de compréhension requise pour l'histoire avancée. Ils excellent sur les faits de base, mais pour une recherche historique plus nuancée, de niveau doctoral, ils ne sont pas encore à la hauteur.
– Maria del Rio-Chanona, professeure associée en informatique à l'University College de Londres
Des erreurs historiques révélatrices
Les chercheurs ont partagé avec TechCrunch des exemples de questions historiques auxquelles les IA ont mal répondu. Par exemple, GPT-4 Turbo a affirmé à tort que l'armure à écailles était présente à une période spécifique de l'Égypte antique, alors que cette technologie n'y est apparue que 1 500 ans plus tard.
Selon Maria del Rio-Chanona, ces lacunes s'expliquent probablement par la tendance des modèles de langage à extrapoler à partir de données historiques très répandues, peinant à retrouver des connaissances historiques plus obscures. Ainsi, GPT-4 a répondu incorrectement que l'Égypte ancienne disposait d'une armée professionnelle permanente à une période donnée, probablement en se basant sur des informations similaires concernant d'autres empires comme la Perse.
Des biais géographiques identifiés
L'étude a également mis en lumière d'autres tendances problématiques, notamment des performances moindres des modèles OpenAI et Llama pour certaines régions comme l'Afrique subsaharienne, suggérant des biais potentiels dans leurs données d'entraînement.
Pour Peter Turchin, qui a dirigé l'étude, ces résultats montrent que les IA ne peuvent pas encore remplacer les humains dans certains domaines. Cependant, les chercheurs gardent espoir que ces technologies puissent à terme aider les historiens, notamment en affinant leur benchmark avec davantage de données issues de régions sous-représentées et en ajoutant des questions plus complexes.
Vers une IA au service de l'histoire
Malgré des résultats mitigés, cette étude ouvre des perspectives prometteuses quant à l'utilisation future de l'IA dans la recherche historique. En soulignant les axes d'amélioration des modèles de langage, elle pose les jalons d'une collaboration fructueuse entre intelligence artificielle et sciences humaines.
À mesure que les IA progresseront dans leur maîtrise des subtilités et de la complexité propres à l'histoire, elles pourraient devenir de précieux outils pour les chercheurs, facilitant l'accès à des connaissances obscures et offrant de nouvelles pistes d'analyse. Une alliance entre la puissance computationnelle des machines et l'expertise humaine qui laisse entrevoir une nouvelle ère pour l'étude de notre passé.