본 논문은 음성 신호가 전달하는 음색을 설명하고, 음성 음색 속성 감지(vTAD)라는 과제를 제시합니다. vTAD 과제에서는 인간의 지각을 기술하는 일련의 감각적 속성으로 음성 음색을 설명합니다. 두 개의 음성 발화를 처리하고, 지정된 음색 기술자에서 그 강도를 비교합니다. 또한, 음성 발화에서 추출된 화자 임베딩을 기반으로 한 프레임워크를 제안합니다. VCTK-RVA 데이터셋을 사용하여 연구를 진행했습니다. ECAPA-TDNN과 FACodec 화자 인코더에 대한 실험 결과, 1) ECAPA-TDNN 화자 인코더는 테스트 화자가 훈련 세트에 포함된 경우(seen scenario) 더 나은 성능을 보였고, 2) FACodec 화자 인코더는 테스트 화자가 훈련에 포함되지 않은 경우(unseen scenario) 더 우수한 성능을 보이며 일반화 능력이 향상되었음을 보여주었습니다. VCTK-RVA 데이터셋과 오픈소스 코드는 https://github.com/vTAD2025-Challenge/vTAD 에서 확인할 수 있습니다.