Les Benchmarks IA Bizarres et Insolites Qui Ont Fait Fureur en 2024
L'année 2024 a vu émerger une nouvelle tendance surprenante dans le monde de l'intelligence artificielle : les benchmarks les plus insolites et créatifs ! Bien loin des tests académiques habituels, la communauté IA s'est passionnée pour des évaluations aussi originales que divertissantes. Retour sur ces benchmarks IA complètement décalés qui ont fait le buzz cette année.
Will Smith Mangeant des Spaghettis, le Nouveau Test Ultime
Le benchmark le plus populaire de 2024 ? Sans conteste, la capacité d'un générateur de vidéos IA à recréer de façon réaliste l'acteur Will Smith en train de manger un bol de spaghettis ! Dès qu'un nouveau modèle sort, il n'est pas rare que quelqu'un le teste avec ce fameux défi des pâtes à la sauce tomate. Une tendance devenue virale, au point que la star elle-même en a fait une parodie sur son compte Instagram en février.
Google Veo 2 a réussi. Nous mangeons enfin des spaghettis.
– Jerrod Lew, sur Twitter
L'IA Mise à l'Épreuve dans Minecraft et les Jeux de Société
Will Smith et les pâtes ne sont qu'un des nombreux benchmarks décalés ayant émergé. Un développeur de 16 ans a créé une app donnant le contrôle de Minecraft à une IA pour tester ses talents d'architecte virtuel. Pendant ce temps, un programmeur britannique a développé une plateforme où différentes IA s'affrontent sur des jeux comme le Pictionnary ou le Puissance 4.
Pourquoi un Tel Engouement pour ces Tests Étranges ?
Si les benchmarks IA académiques peinent à passionner le grand public, c'est souvent par manque d'une dimension ludique ou relatable. Résoudre des équations complexes ou des examens, peu pour nous ! Les internautes plébiscitent des tests plus proches de leurs usages quotidiens, même s'ils sont plus légers et moins représentatifs des réelles performances des modèles.
Certains experts critiquent d'ailleurs le manque de rigueur de benchmarks collaboratifs comme l'Arena des IA, où tout un chacun peut voter pour son modèle favori. Le problème ? Un échantillon d'utilisateurs peu représentatif (beaucoup issus du milieu tech) et des préférences très subjectives.
Vers des Benchmarks IA plus Significatifs ?
Si les benchmarks décalés ont clairement la cote, ils ne remplaceront pas pour autant les évaluations plus sérieuses. Comme le souligne Ethan Mollick, professeur à la Wharton School, il manque cruellement de comparaisons entre IA et performance humaine sur des tâches concrètes, que ce soit en médecine, droit, service client...
Malgré leurs limites, les benchmarks IA insolites prouvent une chose : la technologie fascine autant qu'elle interpelle, suscitant curiosité et créativité de la part du public. Aux experts et entreprises du secteur maintenant de nourrir cet intérêt en proposant des évaluations plus tangibles et signifiantes. En attendant, gageons que 2025 apportera son lot de nouveaux benchmarks toujours plus originaux !