Benchmarks d’IA : L’ECE Évalue les Performances des LLM
Face à la multiplication des grands modèles de langage (LLM) au cœur de l'IA générative, il devient difficile pour les entreprises de savoir lequel choisir pour une application donnée. C'est là qu'interviennent les benchmarks, ces outils d'évaluation comparative qui permettent de noter et classer les LLM selon différents critères de performance. Une école d'ingénieur française, l'ECE, vient justement de dévoiler ses propres benchmarks axés sur deux aspects clés : les capacités mathématiques et l'impact social et environnemental.
Des benchmarks neutres et de confiance
Pour être crédibles et légitimes, les benchmarks doivent avant tout être perçus comme neutres, c'est-à-dire ne pas être biaisés en faveur d'une entreprise en particulier. C'est le pari de l'ECE qui mise sur son statut académique pour se positionner comme un acteur de confiance sur ce marché émergeant. Comme l'explique François Stéphan, le directeur de l'école :
Dans le paysage actuel, une organisation académique de référence peut tout à fait se faire une place sur ce secteur des benchmarks.
François Stéphan, directeur de l'ECE
Comment ça marche ?
Concrètement, pour concevoir un benchmark, il faut commencer par paramétrer un LLM "évaluateur" qui sera chargé de générer les questions et d'évaluer les réponses des autres LLM. Les questions peuvent être fermées (QCM) ou ouvertes. Un système de points est ensuite établi pour noter les réponses et donner un score final à chaque modèle testé.
Mais attention, la qualité des données en entrée est primordiale pour que le benchmark soit pertinent et les évaluations justes, comme le souligne Louis Garcia, étudiant à l'ECE :
La base de données initiale, notamment pour les questions ouvertes, doit vraiment être de très bonne qualité. Il faut bien entraîner le modèle évaluateur pour qu'il sache repérer les bonnes réponses.
Louis Garcia, étudiant ingénieur à l'ECE
Les premiers résultats
Les ingénieurs de l'ECE se sont appuyés sur des experts métiers pour établir des questions et réponses pertinentes dans chaque domaine évalué. Les résultats préliminaires de leur benchmark "mathématiques" donnent ainsi l'avantage à GPT-4 et GPT-4 Turbo par rapport au modèle maison de l'école baptisé Paloalma Le Triomphant.
Côté performance RSE en revanche, l'évaluation est plus complexe, notamment sur le volet environnemental. La consommation énergétique liée à l'entraînement des modèles est souvent une donnée gardée secrète par les entreprises. Pour contourner cet obstacle, le benchmark de l'ECE prévoit de pénaliser les acteurs non transparents sur cet aspect.
Vers un modèle économique des benchmarks
Si la plupart des grands benchmarks actuels sont en open source sur la plateforme Hugging Face, l'ECE n'envisage pas pour l'instant d'y publier les siens. Il faut dire que leur développement a un coût non négligeable en ressources informatiques et humaines. L'école souhaite donc dans un premier temps les réserver à son "Intelligence Lab", une plateforme de recherche destinée à ses étudiants et à des partenaires industriels.
À terme, une contribution financière des utilisateurs pourrait être envisagée, même si on en est encore loin. L'enjeu pour l'ECE est surtout de faire connaître ses travaux avant de réfléchir à une éventuelle monétisation. Car sur ce marché en pleine ébullition, l'important est d'abord d'exister et de s'imposer comme une référence grâce à des benchmarks robustes et continuellement améliorés.
Avec ces nouveaux outils d'évaluation, c'est toute la dynamique de l'écosystème de l'IA générative qui pourrait être impactée. En permettant aux entreprises de mieux s'y retrouver dans la jungle des LLM et de choisir en connaissance de cause la solution la plus adaptée à leurs besoins, les benchmarks jouent en effet un rôle structurant. Ils pourraient aussi à terme influencer les axes de développement des géants du secteur, poussés à optimiser leurs modèles sur certains critères clés. Bref, un petit outil pour de grands enjeux...