ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Created by

Haebom

저자

Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan

💡 개요

본 논문은 AI 연구의 종단 간 평가를 위한 벤치마크 및 실행 환경인 ResearchGym을 소개합니다. 연구자들이 공개한 실제 논문의 데이터셋, 평가 방식, 기본 코드를 활용하여 5개의 연구 과제를 구축했으며, 각 과제에서 AI 에이전트는 새로운 가설을 세우고, 실험을 수행하며, 인간의 기본 성능을 넘어서는 것을 목표로 합니다. GPT-5 기반 에이전트를 평가한 결과, 에이전트는 15번의 평가 중 1번(6.7%)만 기본 성능을 11.5% 향상시켰고, 평균 26.5%의 하위 과제만 완료하여 능력과 신뢰도 사이에 큰 격차가 있음을 확인했습니다.

🔑 시사점 및 한계

•

AI 에이전트의 연구 수행 능력에 대한 현실적인 평가: ResearchGym은 AI 에이전트가 실제 AI 연구의 복잡한 과정을 얼마나 잘 수행할 수 있는지에 대한 냉철한 평가를 제공합니다.

•

현재 AI 에이전트의 한계점 명확화: 에이전트들이 겪는 장기적인 실패 모드(조급함, 시간/자원 관리 부족, 약한 가설에 대한 과신, 병렬 실험 조정 어려움, 컨텍스트 길이 제한 등)를 구체적으로 식별했습니다.

•

신뢰할 수 있는 자율 연구 에이전트 개발을 위한 도전 과제: 일부 프론티어 에이전트가 일시적으로 최첨단 성능을 달성할 수 있지만, 이를 안정적으로 수행하기 위해서는 해결해야 할 많은 과제가 남아있음을 보여줍니다.

PDF 보기

Made with Slashpage