StorySim은 대규모 언어 모델(LLM)의 이론적 마음(ToM)과 세계 모델링(WM) 능력을 평가하기 위한 합성 이야기 생성 프레임워크입니다. 기존 벤치마크의 사전 훈련 데이터 오염 문제를 해결하기 위해, StorySim은 제어 가능한 스토리보드를 기반으로 새롭고 구성적인 이야기 프롬프트를 생성하여 등장인물의 관점과 사건을 정밀하게 조작합니다. 이를 통해 1차 및 2차 ToM 과제와 정신 상태 추적 및 모델링 능력을 제어하는 WM 과제를 설계했습니다. 다양한 최첨단 LLM을 대상으로 한 실험 결과, 대부분의 모델은 WM 과제에서 ToM 과제보다 더 나은 성능을 보였으며, 무생물보다는 사람과의 추론에서 더 나은 성능을 보이는 경향이 있었습니다. 또한, 최근 편향이나 이야기 초반 사건에 대한 과도한 의존과 같은 휴리스틱 행동의 증거를 발견했습니다. 데이터 생성 및 평가를 위한 모든 코드는 공개적으로 제공됩니다.