StorySim là một khuôn khổ lập trình được dùng để tạo ra các câu chuyện nhân tạo nhằm đánh giá khả năng lý thuyết (ToM) và mô hình hóa thế giới (WM) của các mô hình ngôn ngữ quy mô lớn (LLM). Để giải quyết vấn đề ô nhiễm dữ liệu tiền huấn luyện của các chuẩn mực hiện có, StorySim tạo ra các gợi ý câu chuyện mới lạ, mang tính xây dựng dựa trên các bảng phân cảnh được kiểm soát chặt chẽ, cho phép thao tác chính xác các quan điểm và sự kiện của nhân vật. Sử dụng khuôn khổ này, chúng tôi đã thiết kế các nhiệm vụ ToM chính và phụ, cùng với các nhiệm vụ WM để đánh giá khả năng theo dõi và mô hình hóa các trạng thái tinh thần. Các thử nghiệm với các LLM hiện đại cho thấy hầu hết các mô hình thực hiện tốt hơn các nhiệm vụ WM so với các nhiệm vụ ToM và có xu hướng thực hiện tốt hơn trong việc lý luận với con người so với các vật thể vô tri vô giác. Hơn nữa, chúng tôi tìm thấy bằng chứng về các hành vi theo phương pháp kinh nghiệm, chẳng hạn như thiên kiến gần đây và quá phụ thuộc vào các sự kiện ban đầu trong câu chuyện. Tất cả mã để tạo và đánh giá dữ liệu đều được công khai.