Données Synthétiques en IA : Promesses et Périls
L'idée peut sembler farfelue au premier abord : est-il possible d'entraîner une intelligence artificielle uniquement sur des données générées par une autre IA ? Pourtant, ce concept existe depuis un certain temps et gagne en popularité alors que les données réelles deviennent de plus en plus difficiles à obtenir.
Le rôle crucial de la donnée en IA
Les systèmes d'intelligence artificielle sont des machines statistiques. Entraînés sur de vastes ensembles d'exemples, ils apprennent à reconnaître des motifs pour faire des prédictions. Les annotations, généralement du texte décrivant le sens ou les éléments des données ingérées, jouent un rôle clé en servant de balises pour "enseigner" au modèle à distinguer objets, lieux et concepts.
Mais l'appétit croissant pour l'IA et la nécessité de fournir des données étiquetées ont fait exploser le marché des services d'annotation, estimé à 838 millions de dollars aujourd'hui et qui devrait atteindre plus de 10 milliards dans les 10 prochaines années. Des millions de personnes seraient employées dans le monde pour ce travail d'étiquetage, souvent pour de très faibles salaires.
Une pénurie de données qui se profile
Outre les raisons éthiques de chercher des alternatives à l'annotation humaine, des raisons pratiques émergent également. Les humains ont leurs limites en termes de rapidité et introduisent des biais dans les données. De plus, la donnée devient de plus en plus chère et difficile à acquérir, les propriétaires préférant la monétiser ou la restreindre.
Si la tendance actuelle de blocage d'accès se poursuit, les développeurs pourraient manquer de données pour entraîner les modèles d'IA générative entre 2026 et 2032.
– Epoch AI
Les promesses alléchantes des données synthétiques
C'est là qu'entrent en scène les données synthétiques. Générées par des modèles d'IA, elles semblent résoudre tous ces problèmes en offrant une source infinie de données d'entraînement sans les inconvénients des données réelles. Des entreprises comme Anthropic avec son modèle Claude, OpenAI avec Orion ou encore Meta, Microsoft et Google se sont lancées dans cette voie prometteuse.
Des risques à ne pas négliger
Mais les données synthétiques ne sont pas une panacée. Elles héritent des mêmes biais et limitations que les modèles qui les génèrent. Une étude de 2023 montre qu'une dépendance excessive aux données synthétiques peut créer des modèles dont la qualité et la diversité se dégradent avec le temps. Une autre met en garde contre le risque "d'effondrement" où un modèle perd sa capacité à générer des sorties pertinentes.
Le risque d'hallucinations, ces erreurs factuelles générées par les modèles, est également amplifié avec les données synthétiques. Si un modèle complexe comme o1 d'OpenAI génère des artefacts dans les données, ceux-ci seront plus difficiles à détecter et dégraderont les modèles entraînés dessus.
L'humain garde un rôle clé à jouer
Malgré l'enthousiasme autour des données synthétiques, les experts s'accordent à dire qu'elles ne peuvent pas totalement remplacer les données réelles et l'expertise humaine pour le moment. Un examen minutieux, un filtrage et un couplage avec des données fraîches restent nécessaires pour éviter les dérives.
Les chercheurs doivent examiner les données générées, itérer sur le processus de génération et identifier des garde-fous pour supprimer les points de données de mauvaise qualité. Les pipelines de données synthétiques ne sont pas une machine auto-apprenante ; leur production doit être soigneusement inspectée et améliorée avant d'être utilisée pour l'entraînement.
– Luca Soldaini, chercheur à l'Allen Institute for AI
Bien qu'un jour, l'IA puisse peut-être générer des données suffisamment bonnes pour s'entraîner elle-même de manière autonome, cette perspective relève encore de la science-fiction. L'implication humaine restera cruciale, au moins dans un avenir proche, pour s'assurer que l'entraînement des modèles ne déraille pas. L'avenir de l'IA se jouera dans un équilibre subtil entre le réel et le synthétique.