본 논문은 공감적인 음성 상호작용을 위한 완전 오픈소스, 투명하고 엔드-투-엔드 방식의 대규모 언어 모델(LSLM)인 OpenS2S를 제시합니다. OpenS2S는 공감적인 음성-텍스트 모델인 BLSP-Emo를 기반으로 스트리밍 인터리브 디코딩 아키텍처를 사용하여 저지연 음성 생성을 달성합니다. 다양하고 고품질의 공감적인 음성 대화를 저렴한 비용으로 합성하는 자동화된 데이터 구성 파이프라인을 통합하여 엔드-투-엔드 학습을 용이하게 합니다. 대규모 언어 모델을 활용하여 공감적인 콘텐츠를 생성하고, 제어 가능한 텍스트-음성 시스템을 사용하여 화자와 감정적 변화를 도입하여 풍부한 준언어적 다양성과 최소한의 인간 감독으로 확장 가능한 훈련 코퍼스를 구성합니다. 데이터셋, 모델 가중치, 사전 훈련 및 미세 조정 코드를 포함한 완전 오픈소스 OpenS2S 모델을 공개하여 더 넓은 연구 커뮤니티를 지원하고 공감적인 음성 시스템의 혁신을 가속화합니다.
시사점, 한계점
•
시사점:
◦
공감적인 음성 상호작용을 위한 완전 오픈소스 LSLM 제공으로 연구 접근성 향상 및 혁신 가속화.