본 논문은 최첨단 대규모 언어 모델(LLM)의 미래 예측 능력을 평가한 연구입니다. Metaculus의 464개 예측 질문을 사용하여 LLM의 성능을 최고의 예측가 및 전문가 집단과 비교하였습니다. 그 결과, 최첨단 모델들은 인간 집단보다 나은 Brier 점수를 달성했지만, 전문가 집단에는 여전히 상당히 못 미치는 것으로 나타났습니다. 작년까지만 해도 LLM은 인간 집단의 정확도에 근접하지 못했으나, 최근 모델들은 상당한 발전을 이루었음을 보여줍니다.