본 논문은 음성 대화 모델(SDM)의 실질적인 효과를 종합적으로 이해하는 데 초점을 맞추고, 벤치마킹이 잘 갖춰진 텍스트 기반 대규모 언어 모델(LLM)에 비해 부족한 부분을 지적합니다. 음성 대화의 복잡성을 고려하여, 다의성, 동음이의어, 문맥 의존성 등 언어적, 음성학적 특성으로 인한 어려움을 강조합니다. 이러한 문제를 해결하기 위해 영어와 중국어로 구성된 1,079개의 인스턴스를 포함하는 벤치마크 데이터셋을 제시하고, LLM 기반 평가 방법을 통해 SDM의 성능을 평가합니다.