août 5, 2024

Un YouTubeur Porte Plainte Contre OpenAI Pour Utilisation Illicite De Transcriptions

Intelligence Artificielle, Start-ups
6 min de lecture
Modifier l'Article
600 Vues
Steven Soarez
0 Comments

En cette ère d'intelligence artificielle en plein essor, où les entreprises technologiques rivalisent pour développer les modèles d'IA les plus avancés, un litige potentiellement retentissant vient d'éclater sur le devant de la scène. David Millette, un créateur de contenu sur YouTube, a déposé une plainte en action collective contre la célèbre société d'IA OpenAI, l'accusant d'avoir entraîné ses modèles d'IA générative sur des millions de transcriptions de vidéos YouTube sans en informer ni rémunérer les propriétaires.

OpenAI Accusé De Violation Des Droits D'auteur Et Des Conditions D'utilisation De YouTube

Selon la plainte déposée vendredi dernier devant le tribunal de district américain pour le district Nord de la Californie, OpenAI aurait secrètement transcrit les vidéos de M. Millette et d'autres créateurs YouTube afin d'alimenter l'entraînement des modèles sous-jacents à sa plateforme de chatbot ChatGPT et à d'autres outils et produits d'IA générative. En collectant ces données, OpenAI aurait "profité de manière significative" du travail des créateurs, allègue la plainte, tout en violant la loi sur le droit d'auteur et les conditions d'utilisation de YouTube qui interdisent l'utilisation des vidéos pour des applications indépendantes de son service.

M. Millette, représenté par le cabinet d'avocats Bursor et Fisher, demande un procès devant jury et plus de 5 millions de dollars de dommages et intérêts pour tous les utilisateurs de YouTube dont les données auraient pu être récupérées par OpenAI pour l'entraînement de ses modèles.

Les Transcriptions Vidéo, Une Source De Données Cruciale Pour L'IA

Les modèles d'IA générative comme ceux d'OpenAI n'ont pas de réelle intelligence. Nourris d'un nombre colossal d'exemples (films, enregistrements vocaux, essais, etc.), les modèles "apprennent" la probabilité d'occurrence des données en fonction de schémas, y compris le contexte des données environnantes.

La plupart des modèles sont entraînés sur des données provenant de sites web publics et d'ensembles de données du Web. Les entreprises affirment que le "fair use" protège leurs efforts de récupération indiscriminée de données et leur utilisation pour l'entraînement de modèles commerciaux. Cependant, de nombreux détenteurs de droits d'auteur ne sont pas d'accord et déposent des plaintes visant à mettre un terme à cette pratique.

Les transcriptions vidéo sont devenues un ingrédient clé des données d'entraînement à mesure que d'autres sources de données s'épuisent, pour ainsi dire.

Plus de 35 % des 1 000 premiers sites Web mondiaux bloquent désormais le robot d'exploration Web d'OpenAI.
Données d'Originality.AI

Selon une étude de l'initiative Data Provenance du MIT, environ 25 % des données provenant de sources de "haute qualité" ont été restreintes dans les principaux ensembles de données utilisés pour entraîner les modèles d'IA. Si la tendance actuelle au blocage de l'accès se poursuit, le groupe de recherche Epoch AI prévoit que les développeurs manqueront de données pour entraîner les modèles d'IA générative entre 2026 et 2032.

Google Et OpenAI Exploitent Les Transcriptions YouTube

En avril, le New York Times a rapporté qu'OpenAI avait créé son premier modèle de reconnaissance vocale, Whisper, dans le but de transcrire l'audio des vidéos pour collecter des données d'entraînement supplémentaires. Selon le Times, une équipe d'OpenAI comprenant le président de l'entreprise, Greg Brockman, a transcrit plus d'un million d'heures de vidéo de YouTube à l'aide de Whisper, et a utilisé les transcriptions pour entraîner le modèle GPT-4 d'OpenAI qui génère et analyse du texte.

Certains membres du personnel d'OpenAI ont discuté de la façon dont une telle démarche pourrait aller à l'encontre des règles de YouTube, selon le Times.

Google, la société mère de YouTube, a également cherché à utiliser les transcriptions pour entraîner ses modèles. L'année dernière, Google a élargi ses conditions d'utilisation en partie pour permettre à l'entreprise d'exploiter davantage les données des utilisateurs pour l'entraînement des modèles d'IA générative.

Un Coup Dur Pour OpenAI

Cette action collective intervient à un moment difficile pour OpenAI. Au début du mois, Elon Musk, PDG de Tesla et de X, a intenté un nouveau procès contre OpenAI et son PDG Sam Altman, accusant l'entreprise d'avoir abandonné sa mission initiale à but non lucratif en réservant certaines de ses technologies les plus sophistiquées aux clients commerciaux.

Cette affaire soulève de sérieuses questions sur les pratiques de collecte de données des entreprises d'IA et sur le respect des droits d'auteur des créateurs. À mesure que l'IA progresse, il devient crucial de trouver un équilibre entre l'innovation technologique et la protection de la propriété intellectuelle. Les résultats de cette action collective pourraient avoir des répercussions majeures sur l'industrie de l'IA et établir d'importants précédents juridiques pour l'avenir.

Quelles Répercussions Pour L'avenir De L'IA ?

Cette plainte met en lumière les défis juridiques et éthiques auxquels est confronté le domaine en rapide évolution de l'IA générative. Alors que les entreprises technologiques s'efforcent de repousser les limites de ce qui est possible avec l'IA, elles doivent également naviguer dans un paysage réglementaire complexe et tenir compte des droits et des intérêts de diverses parties prenantes.

Si M. Millette obtient gain de cause, cela pourrait obliger OpenAI et d'autres entreprises d'IA à repenser fondamentalement leurs pratiques de collecte et d'utilisation des données. Cela pourrait également ouvrir la voie à d'autres actions en justice de la part de créateurs de contenu et de détenteurs de droits d'auteur qui estiment que leur travail a été exploité sans autorisation.

D'un autre côté, si OpenAI l'emporte, cela pourrait renforcer la position des entreprises technologiques qui affirment que l'utilisation de données publiquement accessibles pour l'entraînement de l'IA relève de l'usage loyal. Cela pourrait accélérer le développement de modèles d'IA encore plus puissants et polyvalents, avec des implications potentiellement transformatrices pour de nombreux secteurs.

Quoi qu'il en soit, cette affaire souligne la nécessité d'une réflexion approfondie et d'un débat sociétal sur la manière de réglementer et d'encadrer le développement de l'IA. Alors que cette technologie continue d'évoluer à un rythme rapide, il sera crucial de trouver un équilibre délicat entre l'encouragement de l'innovation et la protection des droits et des libertés fondamentales.

Le monde observe attentivement cette affaire, car son issue pourrait façonner l'avenir de l'IA et son impact sur notre société numérique. Reste à voir comment les tribunaux trancheront et quelles seront les conséquences à long terme pour l'industrie technologique et au-delà.

Un YouTubeur Porte Plainte Contre OpenAI Pour Utilisation Illicite De Transcriptions