स्टोरीसिम एक प्रोग्रामयोग्य ढाँचा है जो बड़े पैमाने के भाषा मॉडल (एलएलएम) की सैद्धांतिक मन (टीओएम) और विश्व मॉडलिंग (डब्ल्यूएम) क्षमताओं का मूल्यांकन करने हेतु कृत्रिम रूप से कहानियाँ उत्पन्न करता है। मौजूदा बेंचमार्क की पूर्व-प्रशिक्षण डेटा संदूषण समस्या का समाधान करने के लिए, स्टोरीसिम अत्यधिक नियंत्रित स्टोरीबोर्ड पर आधारित नवीन, रचनात्मक कहानी संकेत उत्पन्न करता है, जिससे पात्रों के दृष्टिकोण और घटनाओं का सटीक रूप से हेरफेर संभव होता है। इस ढाँचे का उपयोग करते हुए, हमने प्राथमिक और द्वितीयक टीओएम कार्यों के साथ-साथ मानसिक अवस्थाओं को ट्रैक करने और मॉडल करने की क्षमता का आकलन करने वाले डब्लूएम कार्यों को भी डिज़ाइन किया। अत्याधुनिक एलएलएम के साथ प्रयोगों से पता चला कि अधिकांश मॉडलों ने टीओएम कार्यों की तुलना में डब्लूएम कार्यों पर बेहतर प्रदर्शन किया, और निर्जीव वस्तुओं की तुलना में मनुष्यों के साथ तर्क करने में बेहतर प्रदर्शन किया। इसके अलावा, हमें अनुमानी व्यवहारों के प्रमाण भी मिले, जैसे कि हालिया पूर्वाग्रह और कहानी की शुरुआती घटनाओं पर अत्यधिक निर्भरता। डेटा निर्माण और मूल्यांकन के लिए सभी कोड सार्वजनिक रूप से उपलब्ध हैं।