Les développeurs de logiciels open source se retrouvent face à une crise croissante, alors que des crawlers IA agressifs inondent leurs infrastructures, provoquant des blocages allant jusqu’à l’interdiction d’accès pour des pays entiers. Xe Iaso, un développeur, a atteint un point de rupture cette année, lorsque le trafic massif de crawlers provenant d’Amazon a submergé son service de dépôt Git, entraînant des instabilités répétées. Malgré toutes les mesures de défense mises en place, comme l’ajustement du fichier robots.txt et le blocage des user-agents connus, Xe Iaso a constaté que ces bots parvenaient toujours à contourner les protections.
Pour contrer cette menace, Iaso a déplacé son serveur derrière un VPN et a développé “Anubis”, un système de défi basé sur la preuve de travail, exigeant des navigateurs qu’ils résolvent des énigmes avant d’accéder au site. “Bloquer ces bots est futile car ils mentent, changent leur user-agent et utilisent des adresses IP résidentielles comme proxys”, a-t-il écrit dans un billet de blog.
L’expérience de Xe Iaso met en lumière une crise plus vaste touchant la communauté open source. Un rapport de LibreNews révèle que certains projets open source voient jusqu’à 97 % de leur trafic provenir de bots d’entreprises d’IA, augmentant les coûts de bande passante et provoquant une instabilité des services. Kevin Fenzi, membre de l’équipe sysadmin du projet Fedora Pagure, a dû bloquer tout le trafic en provenance du Brésil après que ses tentatives d’atténuer le trafic des bots aient échoué.
Les conséquences techniques et financières de cette situation sont alarmantes. Le projet Read the Docs a rapporté une réduction de 75 % de son trafic après avoir bloqué les crawlers IA, réalisant une économie mensuelle de 1 500 $ en coûts de bande passante. De nombreux mainteneurs de projets open source se plaignent également que ces bots contournent délibérément les mesures de blocage standard, compliquant ainsi la situation.
Les entreprises d’IA, dont certaines utilisent des crawlers aux user-agents OpenAI, ont été identifiées comme responsables d’une grande partie du trafic. Les motivations derrière ces comportements varient, allant de la collecte de données d’entraînement à la recherche en temps réel. Paradoxalement, ces pratiques nuisent à l’écosystème numérique sur lequel reposent ces mêmes modèles d’IA.
Face à cette menace, des outils de défense émergent. Des créateurs anonymes ont développé des systèmes comme “Nepenthes”, conçu pour piéger les bots dans des labyrinthes de contenu factice, tandis que Cloudflare a annoncé “AI Labyrinth”, une approche destinée à protéger les sites des accès non autorisés.
La situation actuelle menace la durabilité des ressources en ligne essentielles. Les grandes entreprises d’IA continuent d’extraire des données des projets open source sans consentement clair, risquant ainsi de nuire à l’intégrité de l’écosystème numérique. Une coopération proactive entre ces entreprises et les communautés affectées pourrait offrir une solution durable, mais peu d’incitations existent pour adopter de telles pratiques. Sans régulation significative ou auto-restraint de la part des entreprises d’IA, cette lutte entre bots voraces et défenseurs des infrastructures open source est appelée à s’intensifier, aggravant encore davantage la crise.