Auteur: Neura Tech - ven. 18 Avr 2025

Wikimedia lutte contre le scraping des bots avec un nouvel ensemble de données pour l'IA

La Wikimedia Foundation a annoncé, mercredi, une initiative visant à décourager les développeurs d’intelligence artificielle de scraper sa plateforme. En collaboration avec Kaggle, une communauté de science des données propriété de Google, elle a publié un ensemble de données optimisé pour l’entraînement des modèles d’IA, incluant du contenu structuré en anglais et en français.

Cet ensemble de données, hébergé par Kaggle, a été conçu spécialement pour faciliter les flux de travail en apprentissage machine, permettant ainsi aux développeurs d’accéder facilement à des données d’articles lisibles par machine. Il comprend des résumés de recherche, des descriptions courtes, des liens d’images, des données d’infobox et des sections d’articles, tout en excluant les références et les éléments non écrits comme les fichiers audio.

Wikimedia espère que ces “représentations JSON bien structurées” de son contenu attireront davantage les développeurs d’IA, offrant une alternative plus attrayante à l’extraction brute du texte des articles. Cette situation est d’autant plus préoccupante, car le scraping intensif par des bots met une pression considérable sur les serveurs de Wikipedia, consommant une grande partie de sa bande passante.

La Wikimedia Foundation a déjà établi des accords de partage de contenu avec Google et l’Internet Archive. Cependant, le partenariat avec Kaggle vise à rendre ces données plus accessibles aux petites entreprises et aux scientifiques de données indépendants.

Brenda Flynn, responsable des partenariats chez Kaggle, a exprimé son enthousiasme, déclarant : “En tant que lieu de prédilection pour la communauté d’apprentissage machine, Kaggle est extrêmement ravi d’accueillir les données de la Wikimedia Foundation. Nous sommes heureux de contribuer à maintenir ces données accessibles, disponibles et utiles.”