本文介绍了 InMind,一个用于评估大规模语言模型 (LLM) 社会推理能力的全新框架。InMind 利用社会推理游戏 (SDG) Avalon 来评估 LLM 是否能够理解并适应个性化推理风格。InMind 提出了四项认知任务,分别评估静态一致性和动态适应性,并利用游戏进度数据、策略跟踪和赛后反思。通过将 11 个最先进的 LLM 应用于 Avalon 游戏,我们发现典型的 LLM 倾向于依赖词汇线索,难以适应游戏的时间进展和不断变化的策略,而推理增强型 LLM(例如 DeepSeek-R1)则处于展示个性化推理能力的早期阶段。本研究强调了当前 LLM 个性化和自适应推理能力的局限性,并强调了 InMind 作为迈向认知协调的人机交互的基石的重要性。