Sign In

InnovatorBench: Evaluating Agents' Ability to Conduct Innovative LLM Research

Created by
  • Haebom
Category
Empty

저자

Yunze Wu, Dayuan Fu, Weiye Si, Zhen Huang, Mohan Jiang, Keyu Li, Shijie Xia, Jie Sun, Tianze Xu, Xiangkun Hu, Pengrui Lu, Xiaojie Cai, Lyumanshan Ye, Wenhong Zhu, Yang Xiao, Pengfei Liu

개요

본 논문은 대규모 언어 모델(LLM) 연구를 수행하는 에이전트의 현실적이고 종단간(end-to-end) 평가를 위한 벤치마크-플랫폼 쌍인 InnovatorBench를 소개한다. 이 벤치마크는 데이터 구축, 필터링, 증강, 손실 설계, 보상 설계, 스캐폴드 구축 등 20개의 과제로 구성되며, 실행 가능한 결과물과 정확성, 성능, 출력 품질 및 불확실성 평가를 요구한다. 연구 환경인 ResearchGym을 통해 풍부한 액션 공간, 분산 및 장기 실행, 비동기 모니터링, 스냅샷 저장을 지원한다. 또한, Claude-4, GPT-5, GLM-4.5, Kimi-K2와 같은 모델을 활용한 ReAct 에이전트를 구현하여 실험을 진행했다.

시사점, 한계점

시사점:
코드 기반 연구 작업에서 최첨단 모델의 잠재력을 보여줌.
InnovatorBench는 코드 기반 연구 벤치마크의 차세대 주자가 될 가능성 제시.
ResearchGym을 통해 복잡한 연구 환경을 제공.
한계점:
취약한 알고리즘 관련 작업 및 장기 결정에서 어려움.
인내심 부족, 자원 관리 미흡, 템플릿 기반 추론에 대한 과도한 의존성 등.
에이전트가 InnovatorBench에서 최고의 성능을 달성하는 데 11시간 이상 소요됨.
👍