ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities
Created by
Haebom
Category
Empty
저자
Ezra Karger, Houtan Bastani, Chen Yueh-Han, Zachary Jacobs, Danny Halawi, Fred Zhang, Philip E. Tetlock
개요
ForecastBench는 기계 학습 시스템의 예측 정확도를 평가하기 위한 동적 벤치마크입니다. 1,000개의 자동 생성 및 정기 업데이트되는 예측 질문 세트를 사용하여 데이터 유출 가능성을 방지하고, 미래 사건에 대한 질문만 포함합니다. 전문가, 일반 대중, 그리고 대규모 언어 모델(LLM)의 예측 결과를 비교 분석하여 현재 기계 학습 시스템의 능력을 정량화합니다. 벤치마크의 일부 질문(N=200)에 대한 결과를 공개 리더보드(www.forecastbench.org)에 게시합니다. 결과적으로, 많은 벤치마크에서 초인적 성능을 보였던 LLM이 전문가 예측가보다 성능이 낮음을($p$-value < 0.001) 보여줍니다.