Sign In

Forecasting Frontier Language Model Agent Capabilities

Created by
  • Haebom
Category
Empty

저자

Govind Pimpale, Axel H{\o}jmark, Jeremy Scheurer, Marius Hobbhahn

개요

본 논문은 자율 에이전트로서의 언어 모델(LM)의 능력을 정확하게 예측하는 방법을 평가한다. 6가지 예측 방법(직접적으로 벤치마크 점수를 예측하는 '원스텝' 접근법과 중간 지표(예: 벤치마크 성능의 주성분, Elo 등급)를 먼저 예측하는 '투스텝' 접근법)을 사용하여 OpenLLM 2 리더보드의 38개 LM을 대상으로 백테스팅을 수행했다. 검증된 투스텝 접근법(출시일 → Elo → 벤치마크)을 사용하여 소프트웨어 개발(SWE-Bench Verified), 사이버 보안 평가(Cybench), 머신러닝 연구 엔지니어링(RE-Bench) 벤치마크에 대한 최첨단 LM 에이전트의 성능을 예측했다. 2026년 초까지 낮은 능력 유도를 가진 비전문 LM 에이전트는 SWE-Bench Verified에서 54%의 성공률에 도달할 것으로 예측되며, 최첨단 LM 에이전트는 87%의 성공률에 도달할 것으로 예측한다. 단, 추론-계산 스케일링의 최근 발전은 고려하지 않았으므로 예측이 보수적일 수 있다.

시사점, 한계점

시사점: LM 에이전트의 미래 성능을 예측하는 새로운 방법론 제시 및 2026년 초까지 LM 에이전트의 성능 향상에 대한 구체적인 예측 제공. 다양한 벤치마크(SWE-Bench, Cybench, RE-Bench)에 대한 예측치 제시를 통해 다양한 분야에서의 LM 에이전트 발전 상황 예측 가능.
한계점: 추론-계산 스케일링의 최근 발전을 고려하지 않아 예측이 보수적일 가능성 존재. 사용된 데이터셋(OpenLLM 2 리더보드)의 한계로 인한 예측의 일반화 가능성 제약. 새로운 기술적 발전이나 예측 불가능한 요소(예: 정책 변화)를 반영하지 못함.
👍