juin 1, 2024

Le coût des données d’entraînement de l’IA n’est accessible qu’aux géants

Intelligence Artificielle, Technologie Avancée
5 min de lecture
Modifier l'Article
1838 Vues
Steven Soarez
0 Comments

Au cœur des systèmes d'intelligence artificielle les plus avancés d'aujourd'hui se trouvent les données. Mais leur coût ne cesse d'augmenter, les rendant inaccessibles à tous sauf aux entreprises technologiques les plus riches. Cette tendance pourrait bien centraliser le développement de l'IA entre les mains de quelques acteurs dominants, au détriment de l'innovation et de la diversité dans ce domaine en plein essor.

Des machines statistiques affamées de données

Les systèmes d'IA générative sont essentiellement des modèles probabilistes - d'immenses amas de statistiques. Ils devinent, sur la base de vastes quantités d'exemples, quelles données ont le plus de "sens" à placer où. Il semble donc intuitif que plus un modèle dispose d'exemples, meilleures seront ses performances.

Kyle Lo, chercheur à l'Allen Institute for AI (AI2), un organisme à but non lucratif, abonde en ce sens :

Il semble que les gains de performance proviennent des données, du moins une fois que l'on dispose d'une configuration d'entraînement stable.
– Kyle Lo, chercheur à l'AI2

Il donne l'exemple de Llama 3 de Meta, un modèle de génération de texte sorti cette année, qui surpasse le modèle OLMo de l'AI2 malgré une architecture très similaire. La différence ? Llama 3 a été entraîné sur significativement plus de données.

Mais attention, cela ne veut pas dire que l'entraînement sur des ensembles de données exponentiellement plus grands est un chemin sûr vers des modèles exponentiellement meilleurs. La qualité et la curation des données comptent énormément, peut-être plus que la quantité pure. « Il est possible qu'un petit modèle avec des données soigneusement conçues surpasse un grand modèle », nuance Kyle Lo.

Des comportements préoccupants pour acquérir les données

Cette course effrénée aux grands ensembles de données d'entraînement de haute qualité risque de centraliser le développement de l'IA entre les mains des rares acteurs disposant de budgets de plusieurs milliards de dollars pour acquérir ces ensembles. Et où cette quête n'a pas conduit à des comportements contraires à l'éthique (voire illégaux) comme l'agrégation secrète de contenus protégés par le droit d'auteur, elle a récompensé les géants de la technologie aux poches profondes à dépenser pour les licences de données.

Les exemples abondent de fournisseurs d'IA générative acquérant d'immenses jeux de données par des moyens douteux pour entraîner leurs modèles :

OpenAI aurait transcrit plus d'un million d'heures de vidéos YouTube sans l'autorisation de YouTube ou des créateurs pour nourrir son modèle phare GPT-4.
Google a récemment élargi ses conditions d'utilisation pour pouvoir exploiter les documents Google publics, les avis de restaurants sur Google Maps et d'autres contenus en ligne pour ses produits d'IA.
Meta envisagerait de prendre le risque de poursuites judiciaires pour entraîner ses modèles sur du contenu protégé par la propriété intellectuelle.

Pendant ce temps, de grandes et petites entreprises s'appuient sur des travailleurs de pays en développement payés quelques dollars de l'heure seulement pour créer des annotations pour les jeux de données d'entraînement.

Des coûts en hausse constante

Autrement dit, même les accords sur les données les plus transparents ne favorisent pas exactement un écosystème d'IA générative ouvert et équitable. OpenAI a dépensé des centaines de millions de dollars pour obtenir sous licence du contenu auprès d'éditeurs de presse, de bibliothèques de médias et autres - un budget bien au-delà de celui de la plupart des groupes de recherche universitaires, des organisations à but non lucratif et des startups.

Avec le marché des données d'entraînement de l'IA qui devrait passer d'environ 2,5 milliards de dollars aujourd'hui à près de 30 milliards dans une décennie, les courtiers et plateformes de données se précipitent pour facturer des prix élevés - dans certains cas contre la volonté de leurs bases d'utilisateurs. De Shutterstock à Reddit en passant par Stack Overflow, rares sont les plateformes disposant de données abondantes accumulées au fil des années qui n'ont pas signé d'accords avec des développeurs d'IA générative.

Des initiatives indépendantes pour démocratiser l'accès aux données

Une lueur d'espoir réside dans les quelques efforts indépendants et à but non lucratif pour créer des ensembles de données massifs que n'importe qui peut utiliser pour entraîner un modèle d'IA générative :

Le groupe de recherche à but non lucratif EleutherAI travaille avec l'Université de Toronto, AI2 et des chercheurs indépendants pour créer The Pile v2, un ensemble de milliards de passages de texte principalement issus du domaine public.
La startup d'IA Hugging Face a publié en avril FineWeb, une version filtrée du Common Crawl, l'ensemble de données éponyme maintenu par l'organisation à but non lucratif Common Crawl, composé de milliards et de milliards de pages web.

Mais la question est de savoir si l'un de ces efforts ouverts peut espérer suivre le rythme des géants de la technologie. Tant que la collecte et la curation des données resteront une question de ressources, la réponse est probablement non - du moins pas jusqu'à ce qu'une percée dans la recherche ne rééquilibre les règles du jeu.

L'avenir de l'IA générative semble donc pour l'instant promis aux acteurs disposant de budgets colossaux pour acquérir ou constituer les vastes ensembles de données d'entraînement indispensables aux modèles les plus avancés. Une situation préoccupante pour la diversité et l'équité dans ce domaine crucial. Espérons que des initiatives indépendantes ou des avancées fondamentales permettront de redistribuer les cartes.

Le coût des données d’entraînement de l’IA n’est accessible qu’aux géants