본 논문은 다자간 대화에서의 Theory of Mind (ToM) 능력 평가를 위한 새로운 벤치마크 대화-질문 쌍 데이터셋인 $\texttt{DIAMONDs}$를 제시한다. $\texttt{DIAMONDs}$는 비즈니스, 금융 등의 집단 상호작용을 다루는 대화를 포함하며, 참가자들이 대화 과정에서 변화하는 변수들 (예: 마케팅 비용, 예상 매출, 급여)로부터 유추해야 하는 특정 수치 (예: 예상 수익)에 대한 질문을 포함한다. 이를 통해 참가자들의 지식 상태를 추적하고 추론하는 ToM 능력을 정확하게 평가할 수 있다. 최첨단 언어 모델 평가 결과, 참가자 중심 추론, 특히 잘못된 믿음을 가진 상황에서의 어려움, 방해 요소가 포함된 대화 처리의 어려움, 그리고 정보 부족 시나리오 식별 능력의 제한 등이 드러났다. 이는 실제 다자간 대화에서의 현재 모델의 ToM 한계를 보여준다.