본 논문은 대규모 언어 모델(LLM) 연구를 수행하는 에이전트의 현실적이고 종단간(end-to-end) 평가를 위한 벤치마크-플랫폼 쌍인 InnovatorBench를 소개한다. 이 벤치마크는 데이터 구축, 필터링, 증강, 손실 설계, 보상 설계, 스캐폴드 구축 등 20개의 과제로 구성되며, 실행 가능한 결과물과 정확성, 성능, 출력 품질 및 불확실성 평가를 요구한다. 연구 환경인 ResearchGym을 통해 풍부한 액션 공간, 분산 및 장기 실행, 비동기 모니터링, 스냅샷 저장을 지원한다. 또한, Claude-4, GPT-5, GLM-4.5, Kimi-K2와 같은 모델을 활용한 ReAct 에이전트를 구현하여 실험을 진행했다.