Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

Created by
  • Haebom

作者

Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang

概要

この論文は、大規模言語モデル(LLM)の社会的推論能力を評価するための新しいフレームワークであるInMindを提示します。 InMindは、社会的推論ゲーム(SDG)であるAvalonを活用して、LLMがパーソナライズされた推論スタイルを理解して適用できるかどうかを評価します。 InMindは、ゲーム進捗データ、戦略追跡、ゲーム後の反省などを活用して、静的一貫性と動的適応力を評価する4つの認識的課題を提示します。 11の最先端LLMをAvalonゲームに適用した結果、一般的なLLMは語彙的手がかりに依存する傾向があり、時間的なゲーム進行や変化する戦略に適応することが困難でしたが、DeepSeek-R1などの推論強化LLMは個人化された推論能力を示す初期段階にあることを発見しました。この研究は現在、LLMの個人化され適応的な推論能力の限界を示し、認知的に整列したヒト-AI相互作用のためのステップとしてInMindの重要性を強調しています。

Takeaways、Limitations

Takeaways:
LLMの社会的推論能力評価のための新しいフレームワークInMindの提示
パーソナライズされた推論スタイル適用能力評価の重要性を強調
一般的なLLMと推論強化LLMの性能差の確認
認知的に整列したヒト‐AI相互作用のための方向性の提示
Limitations:
InMindフレームワークはAvalonゲームに特化しており、他のSDGへの一般化の可能性に関するさらなる研究が必要
評価されたLLMの種類と数が制限される可能性がある
現在、LLMの個人化された推論能力は初期段階であり、より進化したモデルと評価方法が必要です
👍