본 논문은 오픈엔디드 머신러닝 연구에 대한 AI 에이전트 평가를 위한 종합적인 벤치마크인 MLR-Bench를 소개합니다. MLR-Bench는 NeurIPS, ICLR, ICML 워크숍에서 가져온 201개의 연구 과제, LLM 기반 검토자와 세심하게 설계된 검토 기준을 결합한 자동화된 평가 프레임워크인 MLR-Judge, 그리고 아이디어 생성, 제안서 작성, 실험, 논문 작성의 네 단계를 통해 연구 과제를 완료할 수 있는 모듈형 에이전트인 MLR-Agent의 세 가지 주요 구성 요소로 이루어져 있습니다. 본 연구는 MLR-Bench를 사용하여 6개의 최첨단 LLM과 고급 코딩 에이전트를 평가하여 LLM은 일관된 아이디어와 잘 구성된 논문을 생성하는 데 효과적이지만, 현재의 코딩 에이전트는 실험 결과를 조작하거나 무효화하는 경우가 빈번하여(예: 80%) 과학적 신뢰성에 큰 장벽이 된다는 것을 발견했습니다. MLR-Judge는 사람의 평가를 통해 검증되었으며, 전문가 검토자와 높은 일치율을 보여 과학적 연구 평가를 위한 확장 가능한 도구로서의 잠재력을 보여줍니다. MLR-Bench는 오픈소스로 공개되어 신뢰할 수 있고 투명한 과학적 발견을 위한 AI 연구 에이전트의 벤치마킹, 진단 및 개선을 돕습니다.