Sign In

Re-evaluating Theory of Mind evaluation in large language models

Created by
  • Haebom
Category
Empty

저자

Jennifer Hu, Felix Sosa, Tomer Ullman

개요

본 논문은 대규모 언어 모델(LLM)이 이론적 마음(ToM)을 가지고 있는지에 대한 논쟁을 다룬다. ToM은 타인의 정신 상태를 추론하는 능력으로 정의되며, LLM이 ToM을 가지고 있는지에 대한 증거는 엇갈리고 있으며 최근 평가들의 증가에도 불구하고 합의에 이르지 못하고 있다. 본 논문은 인지과학에서 영감을 얻어 LLM에서 ToM 평가의 현황을 재평가한다. LLM이 ToM을 가지고 있는지에 대한 의견 불일치의 주요 원인은 모델이 인간 행동과 일치해야 하는지, 또는 그 행동의 기저에 있는 계산과 일치해야 하는지에 대한 명확성 부족이라고 주장한다. 또한 현재 평가가 ToM 능력의 "순수한" 측정에서 벗어날 수 있는 방법들을 강조하며, 이는 혼란에 기여한다. 마지막으로 ToM과 실용적 의사소통 간의 관계를 포함한 미래 연구의 여러 방향에 대해 논의하며, 이는 인공 시스템과 인간 인지에 대한 이해를 발전시킬 수 있다고 결론짓는다.

시사점, 한계점

시사점: LLM의 ToM 평가에 대한 기존 연구의 한계를 지적하고, 인간 행동과 기저 계산 간의 구분을 강조함으로써 ToM 평가의 개선 방향을 제시한다. ToM과 실용적 의사소통 간의 관계 연구를 제안하여 인공 시스템 및 인간 인지에 대한 이해를 심화시킬 수 있다.
한계점: LLM의 ToM 존재 여부에 대한 명확한 결론을 제시하지 않고, 미래 연구 방향을 제시하는 데 그친다. 현재의 ToM 평가 방법론에 대한 비판적 분석은 제공하지만, 구체적인 대안을 제시하지는 않는다.
👍