WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning
Created by
Haebom
저자
Rajath Rao, Adithya Ganesan, Oscar Kjell, Jonah Luby, Akshay Raghavan, Scott Feltman, Whitney Ringwald, Ryan L. Boyd, Benjamin Luft, Camilo Ruggero, Neville Ryant, Roman Kotov, H. Andrew Schwartz
개요
본 논문은 기존 음성 인코딩 파이프라인이 최첨단 음성-텍스트 모델 내에 언어 모델(LM)이 있음에도 불구하고 강력한 인간 의사소통 표현을 얻기 위해 추가적인 텍스트 기반 LM에 의존하는 점을 지적합니다. 이를 개선하기 위해, Whisper 모델을 기반으로 한 새로운 접근 방식인 WhiSPA (Whisper with Semantic and Psychological Alignment)를 제안합니다. WhiSPA는 언어 모델 임베딩을 교사로 사용하는 대조 손실이라는 새로운 오디오 훈련 목표를 활용하여 음성 모델 내부의 LM을 향상시킵니다. 정신 건강 오디오 인터뷰에서 추출한 50만 개 이상의 음성 세그먼트를 사용하여, 텍스트 오토인코더(SBERT)의 의미 표현 및 기본 심리적 차원(감정과 성격)의 어휘적으로 파생된 임베딩과 Whisper의 잠재 공간을 정렬하는 유용성을 평가합니다. 자기 지도 학습 감정 과제와 하위 심리적 과제에서 WhiSPA는 기존 음성 인코더를 능가하며, 각각 평균 오류 감소율 73.4% 및 83.8%를 달성합니다. WhiSPA는 풍부한 심리적 표현을 얻기 위해 음성-텍스트 출력에 후속 텍스트 LM을 항상 실행할 필요가 없음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
음성-텍스트 모델 내부의 LM을 개선하여 추가적인 텍스트 LM 없이도 풍부한 심리적 정보를 추출할 수 있음을 보여줌.
◦
대조 손실과 의미 및 심리적 정렬을 활용한 새로운 음성 인코딩 방식 제시.
◦
정신 건강 오디오 데이터를 활용한 실험을 통해 기존 모델 대비 성능 향상을 검증.
◦
감정 및 성격 분석 등 다양한 심리적 과제에서 우수한 성능을 달성.
•
한계점:
◦
사용된 데이터셋이 정신 건강 오디오 인터뷰에 국한되어 일반적인 음성 데이터에 대한 일반화 성능은 추가 연구가 필요.