L’impact dévastateur des bots d’IA sur les petites entreprises
Imaginez : vous êtes à la tête d'une petite entreprise de 7 personnes, votre site e-commerce est votre gagne-pain. Et soudain, en un samedi, tout s'effondre. C'est le cauchemar qu'a vécu Oleksandr Tomchuk, CEO de Triplegangers, quand le bot d'OpenAI a tenté de scraper l'intégralité de son énorme site web, provoquant ce qui s'apparente à une attaque DDoS.
Un bot vorace qui met les serveurs à genoux
Le site de Triplegangers, spécialisé dans les « doubles numériques humains » pour les artistes 3D et les développeurs de jeux vidéo, compte plus de 65 000 produits, chacun avec sa page et au moins trois photos. Quand le bot d'OpenAI a entrepris de tout télécharger, avec ses centaines de milliers de photos et leurs descriptions détaillées, les serveurs ont rendu l'âme.
OpenAI a utilisé 600 adresses IP pour scraper les données, et nous analysons encore les logs de la semaine dernière. Leurs crawlers écrasaient notre site, c'était fondamentalement une attaque DDoS.
– Oleksandr Tomchuk, CEO de Triplegangers
Robot.txt, une protection insuffisante
Triplegangers avait pourtant une page de conditions d'utilisation interdisant aux bots de récupérer ses images sans autorisation. Mais cela n'a pas suffi. Les sites web doivent utiliser un fichier robot.txt correctement configuré avec des balises spécifiques pour dire au bot d'OpenAI, GPTBot, de les laisser tranquilles. Un système d'opt-out que beaucoup de propriétaires de sites ignorent, et qui place la responsabilité sur leurs épaules.
L'addition salée des frais AWS
Non seulement Triplegangers s'est retrouvé hors ligne pendant les heures ouvrables américaines à cause du bot d'OpenAI, mais Tomchuk s'attend en plus à une facture AWS gonflée en raison de toute l'activité CPU et de téléchargement générée par le bot. Un double préjudice pour cette PME.
Impossible de savoir ce qui a été pris
Après plusieurs jours à mettre en place les protections nécessaires, notamment un fichier robot.txt et un compte Cloudflare bloquant plusieurs bots problématiques dont GPTBot, le site de Triplegangers tient à nouveau debout. Mais Tomchuk n'a aucun moyen de savoir exactement ce qu'OpenAI a réussi à prendre, ni de demander le retrait de ce contenu. Un problème épineux pour une entreprise qui scanne de vraies personnes et doit respecter des lois comme le RGPD.
L'ironie du bandit trop gourmand
Tomchuk note l'ironie de la situation : si le bot d'OpenAI avait scrapé plus doucement, il ne se serait rendu compte de rien. C'est la gloutonnerie du bot qui l'a trahi. Un réveil brutal pour ce chef d'entreprise, mais aussi un avertissement pour tous les propriétaires de sites web.
C'est effrayant car ces entreprises semblent exploiter une faille en disant "vous pouvez refuser en mettant à jour votre robot.txt avec nos balises", mais cela fait porter le chapeau aux propriétaires de sites qui doivent comprendre comment les bloquer.
– Oleksandr Tomchuk, CEO de Triplegangers
La mafia des bots : une protection s'impose
Les recherches de DoubleVerify ont montré que les crawlers et scrapers d'IA ont provoqué une augmentation de 86% du "trafic général invalide" en 2024, c'est-à-dire du trafic ne venant pas d'un vrai utilisateur. Face à ce racket des bots qui prennent ce qu'ils veulent à moins d'être bloqués, les entreprises doivent s'équiper et rester vigilantes.
L'outil d'opt-out promis par OpenAI se fait attendre. En attendant, les PME comme Triplegangers trinquent, sans recours possible. Tomchuk en appelle à un changement d'approche : les géants de l'IA devraient demander la permission, pas juste scraper les données à tout va. Un cri d'alarme à l'heure où l'IA s'apprête à bouleverser nos vies et nos entreprises.