Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions

Created by
  • Haebom

作者

Xianzhe Fan, Xuhui Zhou, Chuanyang Jin, Kolby Nottingham, Hao Zhu, Maarten Sap

概要

本論文は、実際の社会的相互作用とギャップのある既存の静的でテキストベースのToMベンチマークの限界を指摘し、複雑な社会的相互作用における多視点ToMを評価するためのSoMi-ToMベンチマークを提案する。 SoMi環境で生成された豊富なマルチモーダル相互作用データに基づいて、一人称評価と三人称評価によってモデルのToM能力を総合的に検証します。 35個の3人称視点ビデオ、363個の1人称視点画像、1225個の専門家注釈多地線多型質問で構成されたデータセットを構築し、人間と最先端LVLMの性能を比較評価した。その結果、LVLMはヒトよりも著しく低い性能を示し、今後LVLMのToM能力向上の必要性を提起した。

Takeaways、Limitations

Takeaways:
複雑な社会的相互作用におけるToMの能力を評価するための新しいベンチマークの提示。
一人称視点と三人称視点の両方を活用して、モデルのToM能力を総合的に評価します。
ヒトとLVLMの性能比較によりLVLMのToM能力向上の必要性を強調
Limitations:
SoMi環境ベースのデータによる一般化の可能性に関するさらなる研究が必要
限られたデータセットサイズ(35の3人称ビデオ)による評価の制限。
特定のLVLMモデルのパフォーマンス評価で、さまざまなモデルの一般化された結果の提示の欠如。
👍