StorySim은 대규모 언어 모델(LLM)의 이론적 마음(ToM) 및 세계 모델링(WM) 능력을 평가하기 위해 이야기를 인공적으로 생성하는 프로그래밍 가능한 프레임워크입니다. 기존 벤치마크의 사전 훈련 데이터 오염 문제를 해결하기 위해, StorySim은 높은 제어력을 가진 스토리보드를 기반으로 새롭고 구성적인 이야기 프롬프트를 생성하여 등장인물의 관점과 사건을 정밀하게 조작할 수 있습니다. 이 프레임워크를 사용하여 정신 상태를 추적하고 모델링하는 능력을 제어하는 WM 작업과 함께 1차 및 2차 ToM 작업을 설계했습니다. 최첨단 LLM에 대한 실험 결과, 대부분의 모델은 ToM 작업보다 WM 작업에서 더 나은 성능을 보였으며, 무생물보다 인간과의 추론에서 더 나은 성능을 보이는 경향이 있었습니다. 또한, 최근 편향이나 이야기의 초기 사건에 대한 과도한 의존과 같은 휴리스틱 행동의 증거를 발견했습니다. 데이터 생성 및 평가를 위한 모든 코드는 공개적으로 제공됩니다.