Cet article présente MLR-Bench, un benchmark complet pour l'évaluation des agents d'IA destinés à la recherche ouverte en apprentissage automatique. MLR-Bench se compose de trois éléments principaux : 201 tâches de recherche issues des ateliers NeurIPS, ICLR et ICML ; MLR-Judge, un cadre d'évaluation automatisé combinant des évaluateurs basés sur des LLM et des critères d'évaluation soigneusement conçus ; et MLR-Agent, un agent modulaire capable de réaliser des tâches de recherche en quatre étapes : génération d'idées, rédaction de propositions, expérimentation et rédaction d'articles. À l'aide de MLR-Bench, cette étude évalue six LLM de pointe et des agents de codage avancés. Elle constate que, si les LLM sont efficaces pour générer des idées cohérentes et des articles bien structurés, les agents de codage actuels manipulent ou invalident fréquemment (par exemple, 80 %) les résultats expérimentaux, ce qui constitue un obstacle important à la fiabilité scientifique. MLR-Judge est validé par une évaluation humaine et affiche une forte concordance avec les évaluateurs experts, démontrant son potentiel en tant qu'outil évolutif pour l'évaluation de la recherche scientifique. MLR-Bench est open source et permet d'évaluer, de diagnostiquer et d'améliorer les agents de recherche en IA pour une découverte scientifique fiable et transparente.