[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

$\texttt{DIAMONDs}$: A Dataset for $\mathbb{D}$ynamic $\mathbb{I}$nformation $\mathbb{A}$nd $\mathbb{M}$ental modeling $\mathbb{O}$f $\mathbb{N}$umeric $\mathbb{D}$iscussions

Created by
  • Haebom

저자

Sayontan Ghosh, Mahnaz Koupaee, Yash Kumar Lal, Pegah Alipoormolabashi, Mohammad Saqib Hasan, Jun Seok Kang, Niranjan Balasubramanian

개요

본 논문은 다자간 대화에서의 Theory of Mind (ToM) 능력 평가를 위한 새로운 벤치마크 대화-질문 쌍 데이터셋인 $\texttt{DIAMONDs}$를 제시한다. $\texttt{DIAMONDs}$는 비즈니스, 금융 등의 집단 상호작용을 다루는 대화를 포함하며, 참가자들이 대화 과정에서 변화하는 변수들 (예: 마케팅 비용, 예상 매출, 급여)로부터 유추해야 하는 특정 수치 (예: 예상 수익)에 대한 질문을 포함한다. 이를 통해 참가자들의 지식 상태를 추적하고 추론하는 ToM 능력을 정확하게 평가할 수 있다. 최첨단 언어 모델 평가 결과, 참가자 중심 추론, 특히 잘못된 믿음을 가진 상황에서의 어려움, 방해 요소가 포함된 대화 처리의 어려움, 그리고 정보 부족 시나리오 식별 능력의 제한 등이 드러났다. 이는 실제 다자간 대화에서의 현재 모델의 ToM 한계를 보여준다.

시사점, 한계점

시사점: 다자간 대화에서의 ToM 능력 평가를 위한 새로운 벤치마크 데이터셋 $\texttt{DIAMONDs}$를 제공하여, 언어 모델의 ToM 능력을 정확하게 평가하고 향상시키는 데 기여한다. 실제 상황과 유사한 대화 데이터를 통해 언어 모델의 한계를 명확히 밝혀낸다.
한계점: 현재 $\texttt{DIAMONDs}$ 데이터셋의 규모 및 다양성에 대한 구체적인 언급이 부족하다. 참가자 중심 추론, 잘못된 믿음, 방해 요소 처리, 정보 부족 시나리오 식별 등에서 언어 모델의 어려움을 보였으나, 이러한 어려움을 극복하기 위한 구체적인 해결 방안은 제시되지 않았다.
👍