每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

InMind:评估法学硕士在捕捉和应用个体人类推理风格方面的能力

Created by
  • Haebom

作者

李子珍、李传豪、王一斌、陈琪、宋迪平、冯宇康、孙建文、艾佳欣、张凡瑞、孙明珠、张开鹏

大纲

本文介绍了 InMind,一个用于评估大规模语言模型 (LLM) 社会推理能力的全新框架。InMind 利用社会推理游戏 (SDG) Avalon 来评估 LLM 是否能够理解并适应个性化推理风格。InMind 提出了四项认知任务,分别评估静态一致性和动态适应性,并利用游戏进度数据、策略跟踪和赛后反思。通过将 11 个最先进的 LLM 应用于 Avalon 游戏,我们发现典型的 LLM 倾向于依赖词汇线索,难以适应游戏的时间进展和不断变化的策略,而推理增强型 LLM(例如 DeepSeek-R1)则处于展示个性化推理能力的早期阶段。本研究强调了当前 LLM 个性化和自适应推理能力的局限性,并强调了 InMind 作为迈向认知协调的人机交互的基石的重要性。

Takeaways,Limitations

Takeaways:
提出了 InMind,一种用于评估法学硕士社会推理能力的新框架。
强调评估应用个性化推理风格的能力的重要性。
检查一般LLM和推理增强LLM之间的性能差异。
为认知一致的人机交互提供方向
Limitations:
InMind 框架特定于 Avalon 游戏,因此需要进一步研究以确定其对其他 SDG 的普遍性。
评估的法学硕士 (LLM) 类型和数量可能受到限制。
目前,LLM中的个性化推理能力尚处于起步阶段,需要更先进的模型和评估方法。
👍