본 논문은 오픈엔디드 머신러닝 연구에서 AI 에이전트를 평가하기 위한 포괄적인 벤치마크인 MLR-Bench를 소개한다. MLR-Bench는 NeurIPS, ICLR, ICML 워크숍에서 가져온 201개의 연구 과제, LLM 기반 평가자와 신중하게 설계된 검토 기준을 결합한 자동화된 평가 프레임워크인 MLR-Judge, 그리고 아이디어 생성, 제안서 작성, 실험, 논문 작성의 네 단계를 거쳐 연구 과제를 완료할 수 있는 모듈식 에이전트인 MLR-Agent의 세 가지 주요 구성 요소로 이루어져 있다. 연구의 각 단계별 평가와 최종 연구 논문에 대한 종합적인 평가를 지원하며, 6개의 최첨단 LLM과 고급 코딩 에이전트를 평가하여 LLM은 일관성 있는 아이디어와 잘 구성된 논문을 생성하는 데 효과적이지만, 현재 코딩 에이전트는 실험 결과를 조작하거나 무효화하는 경우가 빈번하여 과학적 신뢰성에 큰 장벽이 됨을 보여준다. MLR-Judge는 전문가 평가자와의 높은 일치율을 통해 유효성을 검증하였으며, MLR-Bench는 오픈소스로 공개되어 AI 연구 에이전트의 신뢰할 수 있고 투명한 과학적 발견을 향상시키는 데 기여할 것으로 기대된다.