Les géants de la tech adoptent les données synthétiques pour l’IA
L'utilisation de données synthétiques pour entraîner les modèles d'intelligence artificielle devient la norme chez les géants de la tech. Une tendance illustrée récemment par les annonces d'OpenAI et de Google, qui s'appuient massivement sur ces données générées artificiellement pour améliorer leurs IA. Une approche prometteuse, mais qui comporte aussi certains risques.
OpenAI mise sur les données synthétiques pour Canvas
La semaine dernière, OpenAI a dévoilé Canvas, une nouvelle façon d'interagir avec son chatbot ChatGPT. Canvas ouvre une fenêtre avec un espace de travail dédié aux projets d'écriture et de codage. Les utilisateurs peuvent y générer du texte ou du code, puis si besoin, mettre en évidence des sections à modifier en utilisant ChatGPT.
Mais la véritable innovation de Canvas réside dans le modèle affiné qui l'alimente. OpenAI indique avoir adapté son modèle GPT-4o en utilisant des données synthétiques pour "permettre de nouvelles interactions utilisateur". Nick Turley, responsable produit de ChatGPT, précise :
Nous avons utilisé de nouvelles techniques de génération de données synthétiques, comme la distillation des sorties de notre modèle o1-preview, pour affiner le GPT-4o. Cela nous a permis d'améliorer rapidement le modèle et d'implémenter de nouvelles interactions, le tout sans dépendre de données générées par des humains.
– Nick Turley, responsable produit ChatGPT chez OpenAI
Google et Meta aussi dans la course
OpenAI n'est pas la seule entreprise à miser gros sur les données synthétiques. Pour développer ses nouveaux outils vidéo Movie Gen, Meta s'est aussi partiellement appuyée sur des sous-titres générés automatiquement par ses modèles Llama 3. Google a de son côté affiné certains modèles Llama 3 uniquement avec des données synthétiques.
Sam Altman, PDG d'OpenAI, est convaincu que l'IA sera un jour capable de produire des données synthétiques suffisamment bonnes pour s'entraîner elle-même. Un avantage considérable pour ces entreprises qui dépensent des fortunes en annotation humaine et en licences de données.
Des risques à prendre en compte
Mais cette approche "données synthétiques d'abord" n'est pas sans danger. Comme le soulignait récemment un chercheur, les modèles utilisés pour générer ces données sont sujets aux hallucinations (générer des éléments non factuels) et contiennent des biais. Des défauts qui se retrouvent alors dans les données générées.
Une utilisation sûre des données synthétiques nécessite donc un travail minutieux de filtrage et de curation, comme c'est le cas avec les données "réelles". Faute de quoi les modèles entraînés pourraient devenir moins créatifs, plus biaisés, et voir leurs performances sérieusement dégradées.
Avec le coût et la difficulté croissante d'obtenir des données d'entraînement réelles, les géants de l'IA voient cependant dans les données synthétiques leur seule option viable. Espérons qu'ils sauront les manipuler avec prudence. L'avenir de l'IA en dépend.