본 논문은 대규모 언어 모델(LLM) 연구를 수행하는 에이전트의 현실적인 엔드 투 엔드 평가를 위한 벤치마크 플랫폼인 InnovatorBench를 소개합니다. InnovatorBench는 데이터 구성, 필터링, 증강, 손실 설계, 보상 설계 및 스캐폴드 구성 등 20개의 과제로 구성되어 있으며, 실행 가능한 아티팩트와 정확성, 성능, 출력 품질 및 불확실성에 대한 평가가 필요합니다. 또한 에이전트 운영을 지원하기 위해 풍부한 액션 공간, 분산 및 장기 실행, 비동기식 모니터링 및 스냅샷 저장을 제공하는 연구 환경인 ResearchGym을 개발했습니다. Claude-4, GPT-5, GLM-4.5, Kimi-K2와 같은 모델을 활용하여 명시적인 추론과 실행 가능한 계획을 결합한 경량 ReAct 에이전트를 구현했습니다. 실험 결과, 최첨단 모델이 코드 기반 연구 작업에서 가능성을 보여주지만, 불안정한 알고리즘 관련 작업 및 장기 결정, 자원 관리, 템플릿 기반 추론에 과도하게 의존하는 경향이 있는 것으로 나타났습니다.