본 논문은 대화 시스템에서 공통된 이해를 확보하는 데 중요한 역할을 하는 발성 피드백 (예: 'mhm', 'yeah', 'okay')의 의미가 어휘적 및 운율적 형태 모두를 통해 전달됨을 연구합니다. 두 개의 다른 데이터셋에서 추출한 발성 피드백의 지각적 운율적 유사성과 기존 음성 표현이 이러한 유사성을 얼마나 반영하는지 삼항 비교 과제를 통해 실험적으로 조사합니다. 실험 결과, 특히 같은 화자의 피드백의 경우, 스펙트럼 및 자기 지도 학습 음성 표현이 추출된 피치 특징보다 운율을 더 잘 인코딩함을 보여줍니다. 또한 대조 학습을 통해 인간의 지각에 맞춰 표현을 더욱 압축하고 정렬할 수 있음을 밝힙니다.