IA et benchmarks : faut-il les ignorer pour l’instant ?
Cette semaine, l'actualité de l'intelligence artificielle a été marquée par l'annonce fracassante d'Elon Musk. Sa startup xAI a en effet dévoilé Grok 3, son dernier modèle phare qui alimentera ses applications de chatbot Grok. Entraîné sur environ 200 000 GPU, ce modèle surpasse certains des plus grands noms comme OpenAI sur des benchmarks en mathématiques, en programmation et dans d'autres domaines.
Mais que nous disent réellement ces fameux benchmarks ? Chez TechCrunch, nous rapportons souvent ces chiffres à contrecœur, car ils représentent l'un des rares moyens (relativement) standardisés dont dispose l'industrie de l'IA pour mesurer les améliorations des modèles. Cependant, les benchmarks populaires ont tendance à tester des connaissances ésotériques et produisent des scores globaux peu corrélés aux performances réelles sur les tâches qui importent le plus aux utilisateurs.
Des benchmarks qui manquent d'indépendance et de transparence
Comme l'a souligné Ethan Mollick, professeur à Wharton, dans une série de posts sur X après le lancement de Grok 3 lundi, il y a un "besoin urgent de meilleures batteries de tests et d'autorités de test indépendantes". Les entreprises d'IA auto-évaluent leurs résultats de benchmarks plus souvent qu'autrement, ce qui rend ces résultats encore plus difficiles à prendre pour argent comptant.
Les benchmarks publics sont à la fois "bof" et saturés, laissant une grande partie des tests d'IA ressembler à des critiques gastronomiques, basées sur le goût.
– Ethan Mollick, professeur à Wharton
De nouveaux benchmarks plus pertinents ?
Il ne manque pas de tests indépendants et d'organisations proposant de nouveaux benchmarks pour l'IA, mais leur valeur relative est loin de faire l'unanimité dans l'industrie. Certains commentateurs et experts en IA proposent d'aligner les benchmarks sur l'impact économique pour garantir leur utilité, tandis que d'autres affirment que l'adoption et l'utilité sont les véritables mesures de la valeur d'un modèle.
Ce débat pourrait faire rage jusqu'à la fin des temps. Peut-être devrions-nous plutôt, comme le prescrit l'utilisateur X Roon, simplement accorder moins d'attention aux nouveaux modèles et benchmarks en l'absence de percées techniques majeures en IA. Pour notre santé mentale collective, ce ne serait peut-être pas la pire des idées, même si cela induit un certain niveau de FOMO (Fear of Missing Out) lié à l'IA.
Un avenir incertain pour les benchmarks en IA
Alors que l'IA continue de progresser à un rythme effréné, la question de l'évaluation et de la comparaison des modèles reste ouverte. Entre la course effrénée des entreprises pour dominer le marché et le manque de standards établis, difficile de s'y retrouver. Certains pointent du doigt les limites des benchmarks actuels :
- Ils testent souvent des connaissances trop spécifiques et peu représentatives des cas d'usage réels.
- Les scores agrégés ne reflètent pas nécessairement la performance sur les tâches qui comptent vraiment pour les utilisateurs.
- Le manque d'indépendance et de transparence dans la réalisation des tests biaise les résultats rapportés.
Face à ces écueils, différentes pistes sont envisagées, de l'alignement des benchmarks sur des critères économiques à la prise en compte de l'adoption réelle des modèles comme indicateur clé. Mais aucun consensus ne semble se dégager pour l'instant.
En attendant une éventuelle standardisation, certains suggèrent de simplement prêter moins attention aux effets d'annonce autour de chaque nouveau modèle ou benchmark. Une position qui peut se comprendre, même si elle comporte le risque de passer à côté d'avancées significatives. L'avenir nous dira si les benchmarks en IA sauront évoluer pour gagner en pertinence et en crédibilité, ou s'ils finiront par devenir obsolètes dans un domaine en perpétuel mouvement.