Bài báo này đánh giá khả năng dự đoán của các mô hình ngôn ngữ quy mô lớn (LLM) tiên tiến. Sử dụng 464 câu hỏi dự đoán từ Metaculus, chúng tôi đã so sánh hiệu suất của LLM với các nhóm chuyên gia và nhóm dự đoán hàng đầu. Kết quả cho thấy mặc dù các mô hình tiên tiến đạt điểm Brier cao hơn nhóm người, nhưng chúng vẫn còn kém xa so với nhóm chuyên gia. Mặc dù LLM chưa thể đạt được độ chính xác như con người cho đến năm ngoái, nhưng các mô hình gần đây đã cho thấy những tiến bộ đáng kể.