본 논문은 대규모 언어 모델(LLM)을 활용하여 실제 세계의 미래 사건을 예측하는 새로운 패러다임인 "LLM-as-a-Prophet"를 연구합니다. 이를 위해, 지속적으로 라이브 예측 작업을 수집하고 각 작업을 파이프라인 단계로 분해하는 일반 평가 벤치마크인 Prophet Arena를 구축합니다. 포괄적인 평가를 통해 많은 LLM이 인상적인 예측 능력을 보여주지만, 부정확한 사건 기억, 데이터 소스에 대한 오해, 시장에 비해 느린 정보 집약 등 LLM-as-a-Prophet를 통한 우수한 예측 지능 달성을 위한 주요 병목 현상도 발견합니다.