EXP-Bench는 AI 연구의 자동화를 위한 새로운 벤치마크입니다. 기존 AI 에이전트들이 완전한 실험 과정을 수행하는 데 어려움을 겪는다는 점을 해결하기 위해, 영향력 있는 AI 논문에서 추출한 실제 연구 실험을 기반으로 설계되었습니다. 연구 질문과 불완전한 초기 코드가 주어지면, 가설 설정, 실험 절차 설계 및 구현, 실행, 결과 분석까지 완벽한 연구 실험 수행 능력을 평가합니다. 51편의 최상위 AI 논문에서 461개의 AI 연구 과제를 수집하였으며, OpenHands 및 IterativeAgent와 같은 주요 LLM 기반 에이전트를 평가한 결과, 개별 실험 단계(설계 또는 구현 정확성)에서 20-35%의 점수를 얻었지만, 완벽하게 실행 가능한 실험의 성공률은 0.5%에 불과했습니다. EXP-Bench는 AI 에이전트의 AI 연구 실험 수행 능력 향상을 위한 중요한 도구로, 실제 단계별 실험 절차를 제공하여 향후 연구에 기여할 것입니다. GitHub에서 공개 소스로 제공됩니다.
시사점, 한계점
•
시사점:
◦
AI 에이전트의 완전한 연구 실험 수행 능력 평가를 위한 새로운 벤치마크 제공.
◦
실제 연구 실험 데이터를 기반으로 한 현실적인 평가 환경 제공.
◦
AI 에이전트의 연구 능력 향상을 위한 방향 제시.
◦
AI 연구 자동화의 가능성 및 한계를 명확히 제시.
◦
공개 소스로 제공되어 지속적인 연구 및 개발에 기여 가능.
•
한계점:
◦
현재 AI 에이전트의 완전한 실험 수행 성공률이 매우 낮음 (0.5%).
◦
벤치마크에 포함된 과제의 다양성 및 대표성에 대한 추가 검토 필요.
◦
LLM 기반 에이전트에 대한 평가에 치우쳐 다른 유형의 에이전트에 대한 평가가 부족할 수 있음.