Précision des moteurs de recherche IA : 60% d'erreurs selon une étude

Une étude récente du Columbia Journalism Review (CJR) met en lumière des problèmes graves d’exactitude des modèles d’IA générative utilisés pour les recherches d’actualités. Les chercheurs du Tow Center for Digital Journalism ont testé huit outils de recherche alimentés par l’IA dotés de fonctionnalités de recherche en direct et ont découvert que ces modèles fournissaient des réponses incorrectes à plus de 60 % des requêtes concernant des sources d’actualités.

Les chercheurs Klaudia Jaźwińska et Aisvarya Chandrasekar ont noté dans leur rapport qu’environ un Américain sur quatre utilise désormais des modèles d’IA comme alternatives aux moteurs de recherche traditionnels. Cette tendance soulève des inquiétudes majeures quant à la fiabilité, compte tenu du taux d’erreur significatif mis en évidence dans l’étude.

Les taux d’erreur variaient considérablement parmi les plateformes testées. Par exemple, Perplexity a fourni des informations incorrectes dans 37 % des requêtes, tandis que ChatGPT Search a identifié incorrectement 67 % des articles interrogés (soit 134 sur 200). Grok 3 a affiché le taux d’erreur le plus élevé, atteignant 94 %.

Pour ces tests, les chercheurs ont soumis des extraits d’articles d’actualités réels aux modèles d’IA, leur demandant d’identifier le titre de l’article, l’éditeur d’origine, la date de publication et l’URL. Au total, 1 600 requêtes ont été effectuées sur les huit outils de recherche génératifs.

L’étude a révélé une tendance commune parmi ces modèles d’IA : au lieu de décliner de répondre lorsqu’ils manquent d’informations fiables, les modèles fournissent souvent des réponses inventées, plausibles mais incorrectes ou spéculatives. Les chercheurs ont souligné que ce comportement était constant à travers tous les modèles testés, sans exception.

Fait surprenant, les versions premium de ces outils de recherche d’IA ont souvent présenté des performances encore moins satisfaisantes. Par exemple, Perplexity Pro (20 $/mois) et le service premium de Grok 3 (40 $/mois) ont livré des réponses incorrectes plus fréquemment que leurs homologues gratuits. Bien que ces modèles premium aient répondu correctement à un plus grand nombre de requêtes, leur hésitation à décliner des réponses incertaines a entraîné des taux d’erreur globaux plus élevés.

Concernant les problèmes de citations et de contrôle des éditeurs, les chercheurs du CJR ont également mis en évidence que certains outils d’IA ignoraient les paramètres du Robot Exclusion Protocol, que les éditeurs utilisent pour empêcher l’accès non autorisé. Par exemple, la version gratuite de Perplexity a correctement identifié tous les extraits de contenu payant de National Geographic, malgré l’interdiction explicite de National Geographic à l’égard des robots d’exploration de Perplexity.

Lorsque ces outils d’IA citaient des sources, ils dirigeaient souvent les utilisateurs vers des versions syndiquées de contenus sur des plateformes comme Yahoo News, plutôt que vers les sites des éditeurs d’origine. Cela est survenu même dans des cas où des accords de licence formels existaient entre les entreprises d’IA et les éditeurs.

L’émergence de l’inventaire d’URL a également constitué un problème majeur. Plus de la moitié des citations provenant de Google Gemini et Grok 3 ont conduit les utilisateurs à des URL fabriquées ou cassées, entraînant des pages d’erreur. Sur 200 citations testées de Grok 3, 154 ont abouti à des liens non fonctionnels.

Ces problèmes engendrent des tensions significatives pour les éditeurs, qui doivent faire face à des choix difficiles. Bloquer les robots d’IA pourrait entraîner une perte totale d’attribution, tandis que les autoriser permettrait un usage répandu sans générer de trafic vers les sites des éditeurs.

Mark Howard, directeur des opérations du magazine Time, a exprimé ses préoccupations auprès du CJR concernant la nécessité d’assurer la transparence et le contrôle sur la manière dont le contenu de Time apparaît dans les recherches générées par l’IA.

Howard a également suggéré que les utilisateurs devraient faire preuve de scepticisme à l’égard de l’exactitude des outils d’IA gratuits : “Si un consommateur croit actuellement que l’un de ces produits gratuits sera 100 % précis, alors il s’auto-inflige une honte.”

OpenAI et Microsoft ont fourni des déclarations au CJR, reconnaissant avoir reçu les résultats de l’étude mais n’ont pas directement abordé les problèmes spécifiques. OpenAI a noté son engagement à soutenir les éditeurs en générant du trafic via des résumés, des citations, des liens clairs et de l’attribution. Microsoft a déclaré qu’il respectait les protocoles d’exclusion des robots et les directives des éditeurs.

Succès

Erreur

Aide

Aide indisponible pour le moment

Métiers

Intentions

Utiles pour

Types IA

Produire à partir de

Compétences en action

Style écriture

Registre de langage

Niveau IA

IA Modèle utilisé

Force propositionnelle

IA alignées

Orientation culturelle

Orientation idéologique

Orientation religieuse

Modes de pensées

Précision des moteurs de recherche IA : 60% d’erreurs selon une étude

Actualités

IA et politique

Opinions

Decryptage

Articles connexes