OpenAI supprime accidentellement des preuves pour un procès
Le monde de l'intelligence artificielle est en ébullition. Alors qu'OpenAI, la célèbre startup à l'origine de modèles d'IA révolutionnaires comme GPT-4 ou DALL-E, est poursuivie en justice par le New York Times et le Daily News pour avoir prétendument utilisé leurs contenus sans autorisation afin d'entraîner ses algorithmes, un rebondissement inattendu vient de se produire dans cette affaire.
OpenAI supprime accidentellement des preuves potentielles
Selon les avocats des deux journaux, des ingénieurs d'OpenAI auraient effacé par erreur des données qui pourraient s'avérer cruciales dans le cadre de ce procès en violation de droits d'auteur. En effet, l'entreprise avait accepté de fournir deux machines virtuelles afin que les conseils du New York Times et du Daily News puissent rechercher leurs contenus protégés au sein des jeux de données d'entraînement de l'IA.
Mais le 14 novembre dernier, les ingénieurs d'OpenAI ont apparemment supprimé toutes les données de recherche stockées sur l'une de ces machines virtuelles. Malgré leurs efforts pour récupérer ces informations, la structure des dossiers et les noms de fichiers ont été irrémédiablement perdus, rendant impossible la détermination de l'emplacement exact où les articles copiés ont été utilisés pour construire les modèles d'IA.
Une semaine de travail perdue pour les plaignants
Cette suppression accidentelle a de lourdes conséquences pour les avocats et experts engagés par les deux médias. Ils ont en effet dû recommencer from scratch leurs recherches, perdant plus de 150 heures de travail effectué depuis le 1er novembre dernier. Une situation frustrante qui les oblige à "recréer leur travail en partant de zéro, ce qui nécessite un nombre important d'heures-personnes et de temps de traitement informatique", déplorent-ils.
Les plaignants ont appris seulement hier que les données récupérées sont inutilisables et qu'une semaine entière de travail de leurs experts et avocats doit être refaite.
Extrait de la lettre des avocats des plaignants
OpenAI le mieux placé pour chercher dans ses propres données
Si les avocats du New York Times et du Daily News affirment ne pas croire que cette suppression ait été intentionnelle, ils soulignent néanmoins qu'OpenAI est le mieux positionné pour rechercher d'éventuels contenus illicites dans ses jeux de données d'entraînement, en utilisant ses propres outils. Un argument qu'ils ne manqueront certainement pas de faire valoir devant le tribunal.
De son côté, OpenAI n'a pas souhaité commenter l'incident. L'entreprise maintient sa position selon laquelle l'utilisation de données publiques pour entraîner ses modèles relève du "fair use" (usage raisonnable) et ne nécessite donc pas l'obtention de licences ou le versement de compensations financières aux ayants droit, même si elle tire profit de ces systèmes d'IA.
Des accords de licence avec certains éditeurs
Toutefois, la startup a récemment conclu des accords de licence avec plusieurs grands groupes de presse, dont l'Associated Press, Axel Springer (propriétaire de Business Insider), le Financial Times ou encore News Corp. Si les termes exacts de ces deals restent confidentiels, Dotdash, l'un des partenaires, recevrait au moins 16 millions de dollars par an de la part d'OpenAI.
Cette affaire met en lumière les défis juridiques et éthiques auxquels sont confrontées les sociétés d'intelligence artificielle, dont les modèles sont entraînés sur d'immenses corpus de données souvent protégées par le droit d'auteur. Nul doute que son issue, tout comme les éventuels accords entre OpenAI et les éditeurs, seront scrutés de près par l'ensemble de l'industrie.