본 논문은 GPT-4o의 능력에 영감을 받아, 사람과 자연스러운 구어 대화를 할 수 있는 음성 언어 모델(SLM)에 대한 연구를 다룬다. 기존 SLM은 이중 채널 음성 데이터를 충분히 활용하지 못했는데, 본 논문은 이를 해결하기 위해 새로운 생성 모델 패러다임인 Next-Token-Pair Prediction (NTPP)을 제시한다. NTPP는 디코더 전용 아키텍처를 사용하여 화자 독립적인 이중 채널 구어 대화 학습을 가능하게 한다. 실험 결과, NTPP는 기존 방법보다 턴-테이킹 예측, 응답 일관성, 자연스러움 측면에서 SLM의 대화 능력을 크게 향상시키고, 추론 지연 시간도 상당히 줄이는 것을 보여준다.
시사점, 한계점
•
시사점:
◦
이중 채널 음성 데이터를 활용하여 SLM의 대화 능력을 향상시키는 새로운 방법(NTPP) 제시.
◦
디코더 전용 아키텍처를 사용하여 화자 독립적인 구어 대화 학습 가능.
◦
기존 방법보다 향상된 턴-테이킹 예측, 응답 일관성, 자연스러움 및 낮은 추론 지연 시간 달성.
◦
실시간 응용을 위한 실용적인 효율성 증대.
•
한계점:
◦
본 논문에서 제시된 NTPP의 성능 평가는 특정 벤치마크에 국한되어 일반화 가능성에 대한 추가 연구가 필요하다.
◦
다양한 종류의 이중 채널 음성 데이터에 대한 성능 분석이 부족하다.
◦
실제 대화 시나리오에서의 로버스트니스(robustness)에 대한 추가적인 검증이 필요하다.