본 논문은 대규모 언어 모델(LLMs)이 암묵적인 의사소통(subtext나 doublespeak 이해 필요)을 지원할 수 있는지에 대한 기존 연구의 평가 방법론적 한계를 지적하고, 개선된 평가 방법을 제시한다. 기존 연구는 게임의 전반적 결과에 기반한 조잡한 지표를 사용하고, 체계적인 오류 분석이 부족했다는 점을 문제 삼는다. 이에 본 논문은 이벤트 단위 행동을 포착하는 7가지 세분화된 지표와 LLMs의 성능 저하 원인을 분석하는 주제 분석(thematic analysis)을 통해 4가지 주요 추론 실패 유형을 제시함으로써, LLMs의 암묵적 의사소통 능력 평가를 위한 거시적이고 체계적인 접근법을 제안한다.