DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories

작성자

Haebom

카테고리

Empty

저자

Neemesh Yadav, Palakorn Achananuparp, Jing Jiang, Ee-Peng Lim

💡 개요

본 연구는 인간 대화에서 발생하는 사회적 추론 능력을 평가하기 위한 새로운 벤치마크인 DialToM을 소개합니다. DialToM은 대화 맥락 없이 오직 화자의 심리 상태 정보만을 바탕으로 향후 대화 흐름을 예측하는 '상태 주도 진단 평가'를 통해 모델의 이론적 사고(Theory of Mind, ToM) 능력을 측정합니다. 평가 결과, 대규모 언어 모델(LLM)은 심리 상태를 파악하는 데는 능하지만, 이를 활용하여 사회적 상호작용을 예측하는 데는 어려움을 겪는다는 사실이 밝혀졌습니다.

🔑 시사점 및 한계

•

대규모 언어 모델은 심리 상태를 인식하는 능력(Literal ToM)은 뛰어나지만, 이를 실제 대화 흐름 예측에 적용하는 기능적 능력(Functional ToM)은 부족합니다.

•

인간 전문가는 본 평가에서 100%의 정확도를 달성하여, 현재 AI 기술과 인간의 사회적 추론 능력 간의 격차를 명확히 보여줍니다.

•

Gemini 3 Pro 모델은 맥락 없는 예측에서 강력한 기능적 ToM 능력을 보여주었으며, 이는 다른 약한 모델로 전이될 수 있음을 확인했습니다.

•

향후 연구는 LLM이 맥락 정보를 효과적으로 활용하여 기능적 ToM 능력을 향상시킬 수 있는 방향에 집중해야 합니다.

PDF 보기

Made with Slashpage