EXP-Bench는 AI 연구의 자동화를 위한 새로운 벤치마크입니다. 기존 AI 에이전트들이 완전한 실험 과정을 수행하는 데 어려움을 겪는다는 점을 해결하기 위해, 유명 AI 논문에서 실제 연구 실험을 추출하여 벤치마크를 구성했습니다. 연구 질문과 불완전한 초기 코드가 주어지면, AI 에이전트는 가설을 설정하고, 실험 절차를 설계 및 구현하고, 실행하고, 결과를 분석해야 합니다. 51편의 최상위 AI 논문에서 461개의 AI 연구 과제를 선별하여 구성되었으며, OpenHands 및 IterativeAgent 와 같은 주요 LLM 기반 에이전트를 평가한 결과, 개별 실험 단계(설계 또는 구현 정확성)에서 20-35%의 점수를 달성하기도 했지만, 완전하고 실행 가능한 실험의 성공률은 0.5%에 불과했습니다. EXP-Bench는 AI 에이전트가 AI 연구 실험을 수행하는 능력을 향상시키는 데 중요한 도구가 될 것입니다. GitHub에서 공개 소스로 제공됩니다.
시사점, 한계점
•
시사점:
◦
AI 연구 자동화의 어려움을 체계적으로 평가할 수 있는 새로운 벤치마크 제공.
◦
실제 AI 연구 실험을 기반으로 한 고충실도의 과제 제공.
◦
AI 에이전트의 실험 설계, 구현, 실행, 분석 능력 평가 가능.
◦
AI 에이전트 개발을 위한 중요한 척도 및 발전 방향 제시.
◦
오픈소스 공개를 통한 연구 공유 및 협업 촉진.
•
한계점:
◦
현재 AI 에이전트의 완전한 실험 수행 성공률이 매우 낮음 (0.5%).
◦
개별 실험 단계에서의 성능은 상대적으로 높지만, 전체적인 실험 과정 완수에 어려움을 보임.