Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PaperBench: Evaluating AI's Ability to Replicate AI Research

Created by
  • Haebom

저자

Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

개요

PaperBench는 최첨단 AI 연구를 복제하는 AI 에이전트의 능력을 평가하는 새로운 벤치마크입니다. 에이전트는 논문의 기여를 이해하고, 코드베이스를 개발하고, 실험을 성공적으로 실행하는 것을 포함하여 2024 ICML Spotlight 및 Oral 논문 20편을 처음부터 복제해야 합니다. 객관적인 평가를 위해 각 복제 작업을 명확한 채점 기준을 가진 더 작은 하위 작업으로 계층적으로 분해하는 등급 기준을 개발했습니다. PaperBench는 총 8,316개의 개별적으로 채점 가능한 작업으로 구성됩니다. 정확성과 현실성을 위해 각 ICML 논문의 저자와 함께 등급 기준을 공동 개발했습니다. 확장 가능한 평가를 가능하게 하기 위해 등급 기준에 따라 복제 시도를 자동으로 채점하는 LLM 기반 판정자를 개발하고 별도의 판정자용 벤치마크를 만들어 판정자의 성능을 평가했습니다. PaperBench에서 여러 최첨단 모델을 평가한 결과, 오픈 소스 스캐폴딩을 사용한 Claude 3.5 Sonnet (New)이라는 최고 성능의 에이전트가 평균 21.0%의 복제 점수를 달성했습니다. 마지막으로, 최고의 ML 박사 과정 학생들을 모집하여 PaperBench의 일부를 시도하게 하였고, 모델이 아직 인간 기준선을 능가하지 못함을 발견했습니다. 향후 AI 에이전트의 AI 엔지니어링 능력에 대한 이해를 촉진하기 위해 코드(https://github.com/openai/preparedness)를 오픈 소스로 공개했습니다.

시사점, 한계점

시사점:
최첨단 AI 연구 복제 능력을 객관적으로 평가하는 새로운 벤치마크 (PaperBench) 제시.
LLM 기반 자동 채점 시스템 개발을 통한 효율적인 평가 가능.
현재 최고 수준의 AI 모델의 AI 연구 복제 능력 한계 제시 (평균 21% 성공률).
오픈소스 공개를 통한 후속 연구 활성화.
한계점:
현재 모델의 성능이 인간 전문가 수준에 미치지 못함.
벤치마크에 포함된 논문의 수 제한 (20편).
LLM 기반 판정자의 정확성에 대한 추가적인 검증 필요.
👍