본 논문은 자율 에이전트로서의 언어 모델(LM)의 능력을 정확하게 예측하는 방법을 평가한다. 6가지 예측 방법(직접적으로 벤치마크 점수를 예측하는 '원스텝' 접근법과 중간 지표(예: 벤치마크 성능의 주성분, Elo 등급)를 먼저 예측하는 '투스텝' 접근법)을 사용하여 OpenLLM 2 리더보드의 38개 LM을 대상으로 백테스팅을 수행했다. 검증된 투스텝 접근법(출시일 → Elo → 벤치마크)을 사용하여 소프트웨어 개발(SWE-Bench Verified), 사이버 보안 평가(Cybench), 머신러닝 연구 엔지니어링(RE-Bench) 벤치마크에 대한 최첨단 LM 에이전트의 성능을 예측했다. 2026년 초까지 낮은 능력 유도를 가진 비전문 LM 에이전트는 SWE-Bench Verified에서 54%의 성공률에 도달할 것으로 예측되며, 최첨단 LM 에이전트는 87%의 성공률에 도달할 것으로 예측한다. 단, 추론-계산 스케일링의 최근 발전은 고려하지 않았으므로 예측이 보수적일 수 있다.