juillet 2, 2024

La start-up Perplexity AI face aux accusations de plagiat et de web scraping contraire à l’éthique

Intelligence Artificielle, Start-ups
4 min de lecture
Modifier l'Article
977 Vues
Steven Soarez
0 Comments

L'avènement des agents conversationnels et autres outils d'IA générative fascine autant qu'il inquiète. Si ces technologies offrent des perspectives inédites, elles soulèvent aussi de nombreuses questions éthiques et juridiques, en particulier sur la propriété intellectuelle. La start-up Perplexity AI en fait aujourd'hui les frais, mise en cause par Forbes et Wired pour plagiat et web scraping abusif.

Perplexity AI dans la tourmente

Ces dernières semaines, Perplexity AI, start-up spécialisée dans les modèles de langage et les moteurs de recherche augmentés par IA, a été pointée du doigt à plusieurs reprises. D'abord par le magazine Forbes, qui l'accuse d'avoir plagié son enquête exclusive sur les drones militaires à IA développés par l'ancien patron de Google Eric Schmidt. Puis par Wired, qui affirme que Perplexity AI pratique du web scraping contraire au protocole d'exclusion des robots (robots.txt) pour alimenter son IA, et ce sur de nombreux sites.

Face à ces accusations, Perplexity AI se défend en invoquant le fair use (usage raisonnable). Selon la loi américaine sur le copyright, il est en effet permis d'utiliser des extraits d'œuvres protégées à des fins de commentaire, de critique ou de synthèse. Du côté du web scraping, la start-up affirme ne visiter des pages normalement interdites aux robots que pour répondre à des requêtes spécifiques d'utilisateurs, ce qui ne constituerait pas du scraping abusif. Des arguments qui peinent à convaincre les médias lésés.

Web scraping : une zone grise

Le web scraping, qui consiste à extraire automatiquement des données de pages web, est une pratique courante et souvent indispensable, par exemple pour les moteurs de recherche. Mais ses limites restent floues :

Le protocole robots.txt permet aux webmasters d'indiquer les pages à ne pas crawler, mais sans valeur légale contraignante.
Récupérer des données factuelles est a priori licite, mais la frontière avec la reproduction illicite de contenu original est ténue.
Les tribunaux doivent évaluer au cas par cas si le scraping relève du fair use ou de la contrefaçon.

Il n'y a pas de règles absolues. Un résumé qui reprendrait trop le texte original serait une reproduction illégale plutôt qu'un usage raisonnable des idées et faits rapportés.
– Mark McKenna, professeur de droit à l'UCLA

Résumer n'est pas plagier ?

Côté plagiat, Perplexity soutient que ses résumés relèvent du commentaire et de la synthèse d'information, comme le font couramment les journalistes entre eux. Mais là encore, la nuance est subtile entre un résumé original et une copie indue. Forbes et Wired estiment ainsi que certains contenus générés par l'IA de Perplexity reproduisaient mot pour mot des passages entiers de leurs articles, sans crédit suffisant, constituant un plagiat caractérisé qui ne peut être couvert par le fair use.

Équilibre délicat pour l'IA générative

Pour les outils d'IA générative comme les chatbots et moteurs de recherche augmentés, trouver le bon équilibre entre synthèse utile et respect de la propriété intellectuelle est un défi majeur. D'un côté, résumer trop succinctement l'information disponible limite leur valeur ajoutée. Mais de l'autre, des résumés trop poussés dissuadent de consulter les sources, privant les médias de précieux revenus publicitaires tout en profitant de leurs contenus. Sans compter le risque de désinformation si l'IA déforme ou invente des informations.

Conscientes du problème, certaines sociétés d'IA comme OpenAI signent des accords avec les médias pour accéder à leurs contenus et les mettre en avant. Anthropic travaille sur de nouveaux benchmarks pour mieux évaluer les impacts des modèles de langage. Perplexity promet de son côté un meilleur partage des revenus publicitaires et davantage de transparence sur ses sources. Mais beaucoup reste à faire pour encadrer et réguler ces technologies afin de protéger la création et le débat public. Un enjeu majeur pour l'avenir de l'IA, de la presse et de la société de l'information.

La start-up Perplexity AI face aux accusations de plagiat et de web scraping contraire à l’éthique