OpenAI a lancé un nouveau benchmark nommé PaperBench, conçu pour évaluer la capacité des agents d’intelligence artificielle à reproduire des recherches de pointe dans le domaine de l’IA. Ce projet ambitieux demande aux agents de reproduire vingt articles sélectionnés pour leur pertinence lors de la conférence ICML 2024, tant en format Spotlight qu’oral. Les agents doivent non seulement comprendre les contributions des articles, mais également développer une base de code et exécuter avec succès les expériences décrites.
Pour garantir une évaluation objective, PaperBench s’appuie sur des rubriques qui décomposent hiérarchiquement chaque tâche de réplication en sous-tâches plus petites, accompagnées de critères de notation clairs. En tout, le benchmark comprend 8 316 tâches gradables individuellement. Les rubriques ont été co-développées avec les auteurs des articles de l’ICML pour assurer leur précision et leur réalisme.
Dans le but de permettre une évaluation scalable, OpenAI a également mis en place un juge basé sur un modèle de langage (LLM) qui note automatiquement les tentatives de réplication selon les rubriques établies. La performance de ce juge a été testée à l’aide d’un benchmark séparé, permettant de juger de son efficacité.
Les résultats préliminaires de l’évaluation de plusieurs modèles de pointe sur PaperBench révèlent que l’agent le plus performant testé, Claude 3.5 Sonnet (New), utilisant une structure open-source, atteint un score moyen de réplication de 21,0 %. De plus, des doctorants en apprentissage automatique de haut niveau ont été recrutés pour tenter de reproduire un sous-ensemble de PaperBench, mettant en évidence que les modèles d’IA n’ont pas encore surpassé le niveau de référence humain.
OpenAI a décidé de rendre son code open-source afin de faciliter les recherches futures sur les capacités d’ingénierie des agents d’intelligence artificielle. Cette initiative vise à promouvoir une meilleure compréhension des compétences et des limites actuelles des modèles d’IA dans le domaine de la recherche.