OpenAI Supprime Accidentellement des Preuves dans un Procès pour Violation de Droit d’Auteur
Dans un rebondissement inattendu, les avocats du New York Times et du Daily News affirment qu'OpenAI a accidentellement supprimé des données potentiellement pertinentes dans le cadre du procès qui l'oppose aux deux journaux. Ces derniers accusent la startup d'avoir entraîné ses modèles d'IA sur leurs contenus sans autorisation.
Un accès aux données compromis
Afin de permettre aux avocats des plaignants de rechercher d'éventuels contenus protégés par le droit d'auteur dans les jeux de données d'entraînement d'OpenAI, la startup avait accepté de leur fournir deux machines virtuelles. Mais le 14 novembre, les ingénieurs d'OpenAI ont effacé par inadvertance toutes les données de recherche stockées sur l'une de ces machines.
Si OpenAI a pu récupérer la majorité des données, la structure des dossiers et les noms de fichiers ont été irrémédiablement perdus. Selon les avocats, ces données ne peuvent donc plus être utilisées pour déterminer où les articles copiés ont été employés pour construire les modèles d'IA.
Les plaignants ont été contraints de recommencer leur travail de zéro, ce qui a nécessité un nombre important d'heures de travail et de temps de traitement informatique.
– Extrait de la lettre des avocats des plaignants
OpenAI le mieux placé pour chercher les contenus litigieux ?
Si les avocats ne pensent pas que la suppression était intentionnelle, ils estiment qu'OpenAI est le mieux placé pour rechercher lui-même les contenus potentiellement en infraction en utilisant ses propres outils. Un porte-parole d'OpenAI a refusé de commenter.
Le débat sur le "fair use" des données d'entraînement
OpenAI maintient que l'utilisation de données publiques, y compris des articles de presse, pour entraîner ses modèles relève du fair use. La startup estime donc qu'elle n'a pas à obtenir de licence ou à rémunérer les ayants droit, même si elle tire des revenus de ces modèles comme GPT-4.
Cependant, OpenAI a signé des accords de licence avec un nombre croissant d'éditeurs de presse. Si les termes de ces accords restent confidentiels, Dotdash, l'un des partenaires, recevrait au moins 16 millions de dollars par an.
Quelle issue pour le procès ?
Cet incident soulève des questions sur la capacité d'OpenAI à fournir toutes les preuves demandées et sur l'impact que cela pourrait avoir sur l'issue du procès. Les enjeux sont importants pour l'avenir des relations entre l'IA et les ayants droit :
- Les modèles d'IA peuvent-ils continuer à s'entraîner librement sur des contenus publics sans contrepartie ?
- Les éditeurs parviendront-ils à faire reconnaître leurs droits et à obtenir des compensations ?
- Quel équilibre trouver entre soutien à l'innovation et respect de la propriété intellectuelle ?
Les prochaines étapes de la procédure et un éventuel jugement sur le fond sont attendus avec impatience par tout l'écosystème de l'IA. Les conséquences pourraient être majeures pour le développement futur des grands modèles de langage et leurs cas d'usage.