Sign In

InnovatorBench: Evaluating Agents' Ability to Conduct Innovative LLM Research

Created by
  • Haebom
Category
Empty

저자

Yunze Wu, Dayuan Fu, Weiye Si, Zhen Huang, Mohan Jiang, Keyu Li, Shijie Xia, Jie Sun, Tianze Xu, Xiangkun Hu, Pengrui Lu, Xiaojie Cai, Lyumanshan Ye, Wenhong Zhu, Yang Xiao, Pengfei Liu

개요

본 논문은 대규모 언어 모델(LLM) 연구를 수행하는 에이전트의 현실적인 엔드 투 엔드 평가를 위한 벤치마크 플랫폼인 InnovatorBench를 소개합니다. InnovatorBench는 데이터 구성, 필터링, 증강, 손실 설계, 보상 설계 및 스캐폴드 구성 등 20개의 과제로 구성되어 있으며, 실행 가능한 아티팩트와 정확성, 성능, 출력 품질 및 불확실성에 대한 평가가 필요합니다. 또한 에이전트 운영을 지원하기 위해 풍부한 액션 공간, 분산 및 장기 실행, 비동기식 모니터링 및 스냅샷 저장을 제공하는 연구 환경인 ResearchGym을 개발했습니다. Claude-4, GPT-5, GLM-4.5, Kimi-K2와 같은 모델을 활용하여 명시적인 추론과 실행 가능한 계획을 결합한 경량 ReAct 에이전트를 구현했습니다. 실험 결과, 최첨단 모델이 코드 기반 연구 작업에서 가능성을 보여주지만, 불안정한 알고리즘 관련 작업 및 장기 결정, 자원 관리, 템플릿 기반 추론에 과도하게 의존하는 경향이 있는 것으로 나타났습니다.

시사점, 한계점

시사점:
InnovatorBench는 LLM 연구 에이전트의 현실적인 평가를 위한 새로운 벤치마크를 제시합니다.
ResearchGym 환경은 에이전트의 복잡한 연구 작업 수행을 지원합니다.
최첨단 모델이 코드 기반 연구 작업에서 어느 정도의 잠재력을 보여줌을 확인했습니다.
한계점:
최첨단 모델은 불안정한 알고리즘 관련 작업 및 장기적인 의사 결정에 어려움을 겪습니다.
에이전트가 InnovatorBench에서 최고의 성능을 달성하는 데 상당한 시간(11시간 이상)이 소요됩니다.
템플릿 기반 추론과 자원 관리의 문제가 나타났습니다.
👍