IA et benchmarks : faut-il les ignorer pour l’instant ?

Accueil - Technologies et Avenirs - Intelligence Artificielle - IA et benchmarks : faut-il les ignorer pour l’instant ?
IA et benchmarks  faut il les ignorer pour linstant    Innovationsfr
février 20, 2025

IA et benchmarks : faut-il les ignorer pour l’instant ?

Cette semaine, l'actualité de l'intelligence artificielle a été marquée par l'annonce fracassante d'Elon Musk. Sa startup xAI a en effet dévoilé Grok 3, son dernier modèle phare qui alimentera ses applications de chatbot Grok. Entraîné sur environ 200 000 GPU, ce modèle surpasse certains des plus grands noms comme OpenAI sur des benchmarks en mathématiques, en programmation et dans d'autres domaines.

Mais que nous disent réellement ces fameux benchmarks ? Chez TechCrunch, nous rapportons souvent ces chiffres à contrecœur, car ils représentent l'un des rares moyens (relativement) standardisés dont dispose l'industrie de l'IA pour mesurer les améliorations des modèles. Cependant, les benchmarks populaires ont tendance à tester des connaissances ésotériques et produisent des scores globaux peu corrélés aux performances réelles sur les tâches qui importent le plus aux utilisateurs.

Des benchmarks qui manquent d'indépendance et de transparence

Comme l'a souligné Ethan Mollick, professeur à Wharton, dans une série de posts sur X après le lancement de Grok 3 lundi, il y a un "besoin urgent de meilleures batteries de tests et d'autorités de test indépendantes". Les entreprises d'IA auto-évaluent leurs résultats de benchmarks plus souvent qu'autrement, ce qui rend ces résultats encore plus difficiles à prendre pour argent comptant.

Les benchmarks publics sont à la fois "bof" et saturés, laissant une grande partie des tests d'IA ressembler à des critiques gastronomiques, basées sur le goût.

– Ethan Mollick, professeur à Wharton

De nouveaux benchmarks plus pertinents ?

Il ne manque pas de tests indépendants et d'organisations proposant de nouveaux benchmarks pour l'IA, mais leur valeur relative est loin de faire l'unanimité dans l'industrie. Certains commentateurs et experts en IA proposent d'aligner les benchmarks sur l'impact économique pour garantir leur utilité, tandis que d'autres affirment que l'adoption et l'utilité sont les véritables mesures de la valeur d'un modèle.

Ce débat pourrait faire rage jusqu'à la fin des temps. Peut-être devrions-nous plutôt, comme le prescrit l'utilisateur X Roon, simplement accorder moins d'attention aux nouveaux modèles et benchmarks en l'absence de percées techniques majeures en IA. Pour notre santé mentale collective, ce ne serait peut-être pas la pire des idées, même si cela induit un certain niveau de FOMO (Fear of Missing Out) lié à l'IA.

Un avenir incertain pour les benchmarks en IA

Alors que l'IA continue de progresser à un rythme effréné, la question de l'évaluation et de la comparaison des modèles reste ouverte. Entre la course effrénée des entreprises pour dominer le marché et le manque de standards établis, difficile de s'y retrouver. Certains pointent du doigt les limites des benchmarks actuels :

  • Ils testent souvent des connaissances trop spécifiques et peu représentatives des cas d'usage réels.
  • Les scores agrégés ne reflètent pas nécessairement la performance sur les tâches qui comptent vraiment pour les utilisateurs.
  • Le manque d'indépendance et de transparence dans la réalisation des tests biaise les résultats rapportés.

Face à ces écueils, différentes pistes sont envisagées, de l'alignement des benchmarks sur des critères économiques à la prise en compte de l'adoption réelle des modèles comme indicateur clé. Mais aucun consensus ne semble se dégager pour l'instant.

En attendant une éventuelle standardisation, certains suggèrent de simplement prêter moins attention aux effets d'annonce autour de chaque nouveau modèle ou benchmark. Une position qui peut se comprendre, même si elle comporte le risque de passer à côté d'avancées significatives. L'avenir nous dira si les benchmarks en IA sauront évoluer pour gagner en pertinence et en crédibilité, ou s'ils finiront par devenir obsolètes dans un domaine en perpétuel mouvement.

Partager:

Ajouter Un Commentaire

Chercher

Étiquettes

Accord OpenAI Apple accélérateur innovation santé accélérateur startup accélérateur startups acquisition stratégique Amazon addiction réseaux sociaux adoption IA générative adoption intelligence artificielle all4pack emballages durables innovations packaging écoconception économie circulaire Andreessen Horowitz Twitter influence réseaux sociaux capital risque autonomie véhicules électriques avenir IA générative avenir intelligence artificielle barquettes inox consigne réduction déchets Berny transition écologique BoJ politique monétaire relance économique achats d'obligations transition monétaire campus cybersécurité chiffres inflation cloud computing commissaires vie privée compétitivité industrie automobile européenne conduite autonome confiance intelligence artificielle controverse Elon Musk crise financement startups données personnelles défis véhicules autonomes expansion internationale expérience utilisateur FinTech canadienne Géotechnique Décarbonation industrie Empreinte carbone Transition énergétique Prototype innovant IA conversationnelle IA industrie 4.0 Imagino levée de fonds marketing digital données clients expansion internationale Industrie du futur Relocalisation industrielle Transition écologique Startups deeptech Souveraineté technologique levées de fonds marchés financiers mobilité durable mobilité urbaine souveraineté numérique startup innovante startups innovantes transformation numérique transition énergétique économie circulaire énergies renouvelables

Beauty and lifestyle influencer

Follow my journey on all Social Media channels

Alienum phaedrum torquatos nec eu, vis detraxit periculis ex, nihilmei. Mei an pericula euripidis, hinc partem ei est.
facebook
5M+
Facebook followers
Follow Me
youtube
4.6M+
Youtube Subscribers
Subscribe Me
tiktok
7M+
Tiktok Followers
Follow Me
instagram
3.4M+
Instagram Followers
Follow Me