Promesses et écueils des données synthétiques en intelligence artificielle

Accueil - Technologies et Avenirs - Intelligence Artificielle - Promesses et écueils des données synthétiques en intelligence artificielle
Promesses et écueils des données synthétiques en intelligence artificielle Innovationsfr
octobre 14, 2024

Promesses et écueils des données synthétiques en intelligence artificielle

L'avenir de l'intelligence artificielle passe-t-il par les données synthétiques ? C'est la question que se posent de plus en plus de chercheurs et d'entreprises face à la montée en puissance des IA génératives. Anthropic a utilisé partiellement des données synthétiques pour entraîner son modèle phare Claude. Meta en a fait de même pour ses modèles Llama. Et même OpenAI s'y mettrait pour son prochain grand modèle Orion.

Pallier le manque de données réelles annotées

L'appétit gargantuesque des modèles d'IA pour les données, et en particulier les données annotées, a fait exploser le marché de l'annotation qui pourrait atteindre plus de 10 milliards de dollars d'ici 10 ans selon Dimension Market Research. Des millions de travailleurs, souvent mal payés dans les pays en développement, s'échinent à étiqueter des millions d'images, de textes et de vidéos pour permettre aux algorithmes d'apprendre.

Mais au-delà des problèmes éthiques, les données réelles commencent à se faire rares et chères. Shutterstock ou Reddit font payer des dizaines de millions de dollars l'accès à leurs archives. Plus de 35% des 1000 sites web les plus populaires bloquent aujourd'hui le scraping. Et près de 25% des données de haute qualité sont désormais inaccessibles aux grands datasets d'entraînement. À ce rythme, les chercheurs d'Epoch AI prédisent une pénurie de données pour les modèles génératifs entre 2026 et 2032.

Générer massivement des exemples d'apprentissage

C'est là qu'interviennent les données synthétiques, c'est-à-dire générées par une IA. L'idée est de prendre un petit jeu de données de départ et de le démultiplier à l'infini ou presque grâce à un modèle génératif. Plutôt que d'annoter péniblement à la main, on génère automatiquement les étiquettes. L'entreprise Writer affirme ainsi avoir entraîné son dernier modèle Palmyra pour 700 000 dollars, contre 4,6 millions pour un modèle équivalent d'OpenAI.

Si les "données sont le nouvel or noir", les données synthétiques se présentent comme un biocarburant, créable sans les externalités négatives de la vraie chose.

– Os Keyes, Université de Washington

D'après Gartner, 60% des données utilisées dans les projets d'IA et d'analyse cette année seront générées synthétiquement. Un marché évalué à 2,34 milliards de dollars en 2030. Microsoft, Google, Amazon, Meta, OpenAI... Tous les géants de la tech y ont recours pour compléter leurs jeux de données.

Le risque des biais et hallucinations amplifiés

Mais gare à l'effet "garbage in, garbage out". Si les données initiales sont biaisées, les données synthétiques le seront aussi. Avec le risque de créer des modèles de moins en moins divers et représentatifs du monde réel au fil des générations, comme l'ont montré des chercheurs de Rice University et Stanford. Un phénomène amplifié par les hallucinations des grands modèles génératifs de type GPT qui peuvent introduire des artefacts difficiles à détecter selon Os Keyes.

À terme, cela peut même mener à un "effondrement des modèles" comme le révèle une étude parue dans Nature. Au fil des générations, les modèles perdent prise avec le savoir le plus pointu pour devenir plus génériques et incohérents. Le même phénomène a été observé avec les modèles de vision par ordinateur:

  • Les biais initiaux sont amplifiés de génération en génération
  • Le modèle perd sa créativité et sa maîtrise des connaissances poussées
  • Les sorties deviennent de plus en plus génériques et décorrélées des entrées

Combiner données réelles et synthétiques

La parade consiste à filtrer et superviser attentivement les données synthétiques, en éliminant les points aberrants ou trop éloignés de la distribution réelle. Il faut aussi régulièrement réinjecter des données fraîches annotées par des humains pour garder les modèles ancrés dans le monde concret. C'est ce que font la plupart des projets combinant données synthétiques et réelles.

Ainsi, si les données synthétiques constituent un formidable accélérateur pour le machine learning en palliant le manque de données annotées, elles ne sont pas la panacée. Un modèle ne peut pas s'entraîner tout seul uniquement avec ses propres sorties comme l'imagine Sam Altman d'OpenAI. Il faudra encore longtemps des humains dans la boucle pour s'assurer que l'apprentissage des IA ne parte pas dans une direction biaisée ou incohérente.

Partager:

Ajouter Un Commentaire

Chercher

Beauty and lifestyle influencer

Follow my journey on all Social Media channels

Alienum phaedrum torquatos nec eu, vis detraxit periculis ex, nihilmei. Mei an pericula euripidis, hinc partem ei est.
facebook
5M+
Facebook followers
Follow Me
youtube
4.6M+
Youtube Subscribers
Subscribe Me
tiktok
7M+
Tiktok Followers
Follow Me
instagram
3.4M+
Instagram Followers
Follow Me