Une récente étude met en lumière les limites des chatbots IA, soulignant qu’ils ne doivent pas être utilisés pour rechercher des informations factuelles, car leur fiabilité est gravement compromise. Selon la Columbia Journalism Review, les résultats de cette étude montrent que ces outils, tels que ChatGPT, Gemini et Grok, affichent souvent une grande confiance dans des informations incorrectes.
Le Tow Center for Digital Journalism a testé huit chatbots réputés pour leur capacité à effectuer des recherches en ligne, y compris ChatGPT, Perplexity, et Microsoft’s Copilot. Les chercheurs ont demandé à chaque système de trouver un article en ligne basé sur une citation précise, choisie pour être facilement accessible via Google.
Les résultats de l’étude sont préoccupants. En moyenne, les chatbots ont été corrects moins de 40% du temps. Perplexity a été le plus performant, atteignant 63%, tandis que Grok-3 a enregistré le plus faible taux de réussite avec seulement 6%. De plus, il a été observé que les chatbots avaient tendance à donner des réponses incorrectes ou spéculatives même lorsqu’ils ne pouvaient pas répondre avec précision.
Fait intéressant, bien que Perplexity ait obtenu de meilleurs résultats, son efficacité repose sur des pratiques discutables, comme l’accès à des articles protégés par des paywalls, contournant des protocoles de restriction des robots. ChatGPT, quant à lui, a fourni les résultats les moins mauvais parmi les chatbots testés.
L’étude confirme ainsi l’idée selon laquelle les chatbots peuvent être utilisés pour s’inspirer et générer des idées, mais jamais pour obtenir des réponses à des questions factuelles. Dans ce contexte, le partenariat d’Apple avec OpenAI pour intégrer ChatGPT dans Siri apparaît comme une décision judicieuse, permettant d’améliorer les réponses aux requêtes pour lesquelles Siri ne dispose pas de réponses directes.



























