Évaluation de PaperBench : Agents d'IA et réplication de recherches Évaluation de PaperBench : Agents d’IA et réplication de recherches – NEURA KING

Évaluation de PaperBench : Agents d'IA et réplication de recherches

OpenAI a lancé un nouveau benchmark nommé PaperBench, conçu pour évaluer la capacité des agents d’intelligence artificielle à reproduire des recherches de pointe dans le domaine de l’IA. Ce projet ambitieux demande aux agents de reproduire vingt articles sélectionnés pour leur pertinence lors de la conférence ICML 2024, tant en format Spotlight qu’oral. Les agents doivent non seulement comprendre les contributions des articles, mais également développer une base de code et exécuter avec succès les expériences décrites.

Pour garantir une évaluation objective, PaperBench s’appuie sur des rubriques qui décomposent hiérarchiquement chaque tâche de réplication en sous-tâches plus petites, accompagnées de critères de notation clairs. En tout, le benchmark comprend 8 316 tâches gradables individuellement. Les rubriques ont été co-développées avec les auteurs des articles de l’ICML pour assurer leur précision et leur réalisme.

Dans le but de permettre une évaluation scalable, OpenAI a également mis en place un juge basé sur un modèle de langage (LLM) qui note automatiquement les tentatives de réplication selon les rubriques établies. La performance de ce juge a été testée à l’aide d’un benchmark séparé, permettant de juger de son efficacité.

Les résultats préliminaires de l’évaluation de plusieurs modèles de pointe sur PaperBench révèlent que l’agent le plus performant testé, Claude 3.5 Sonnet (New), utilisant une structure open-source, atteint un score moyen de réplication de 21,0 %. De plus, des doctorants en apprentissage automatique de haut niveau ont été recrutés pour tenter de reproduire un sous-ensemble de PaperBench, mettant en évidence que les modèles d’IA n’ont pas encore surpassé le niveau de référence humain.

OpenAI a décidé de rendre son code open-source afin de faciliter les recherches futures sur les capacités d’ingénierie des agents d’intelligence artificielle. Cette initiative vise à promouvoir une meilleure compréhension des compétences et des limites actuelles des modèles d’IA dans le domaine de la recherche.

Actualités

Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Anthropic lance une API de recherche en temps réel : révolution dans la recherche internet 2025
OpenAI appelle à une infrastructure stratégique en IA pour préserver la dominance américaine
NOUVELLE ÈRE de l’IA : OpenAI o1 stimule les startups chinoises en 2025
L'IA dans l'éducation : révolution ou défi éthique ? | NEURA KING
Solution IA : Anthropic booste Claude avec des intégrations outils pros (Jira, Zapier, Confluence)
Sam Altman inaugure un magasin à Union Square avec reconnaissance oculaire
Google DeepMind UK : 300 employés syndiqués contre le contrat IA israélien
Sam Altman admet les défauts de GPT-4o : ChatGPT trop sycophante, corrections en cours
Dario Amodei (Anthropic) : Ouvrir la boîte noire de l'IA d'ici 2027

IA et politique

Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Guerre des puces : enjeux technologiques et stratégiques entre États-Unis et Chine
DeepSeek : Menace à la sécurité nationale des États-Unis
L'UE interdit les assistants virtuels : une nouvelle règle pour les agents IA
Acceptez qu'on vous vole, sinon, c'est la fin
Comment faire passer un président pour un tocard ?
Impact de l'IA sur les conflits mondiaux : Sommet militaire à Paris
Stratégie AI-First pour la Transformation Technologique de l'Administration Fédérale
Meta envisage de stopper le développement d'IA jugées trop risquées
OpenAI o3-mini réfléchit en Mandarin !

Opinions

Ils collectent vos données, exploitent vos idées et préparent votre remplacement
Pourquoi Grok dit (disait) que Musk est un désinformateur ?
Comment faire passer un président pour un tocard ?
OpenAI o3-mini réfléchit en Mandarin !
DeepSeek : Le cadeau empoisonné de la Chine
Censure DeepSeek: l'IA défraye l'actu politico-technique. (Edit: )

Decryptage

Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Ils collectent vos données, exploitent vos idées et préparent votre remplacement
Elon Musk et Microsoft s'associent pour un projet d'IA de 30 milliards de dollars
Intelligence Artificielle (IA) : Comprendre et appréhender l'IA contemporaine
Comment l'IA nous manipule ?
Retour en haut