Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance

Created by
  • Haebom

저자

Xingjian Zhao, Zhe Xu, Qinyuan Cheng, Zhaoye Fei, Luozhijie Jin, Yang Wang, Hanfu Chen, Yaozhou Jiang, Qinghui Gao, Ke Chen, Ruixiao Li, Mingshu Chen, Ruiming Wang, Wenbo Zhang, Yiyang Zhang, Donghua Yu, Yang Gao, Xiaogui Yang, Yitian Gong, Yuanfan Xu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu

개요

MOSS-Speech는 텍스트 지침 없이 음성을 직접 이해하고 생성하는 진정한 speech-to-speech 대규모 언어 모델입니다. 모달리티 기반 레이어 분할 아키텍처와 사전 훈련된 텍스트 LLM의 추론 및 지식을 보존하는 고정된 사전 훈련 전략을 결합하여 음성 기능을 추가합니다. 실험 결과, 음성 질의 응답에서 최첨단 결과를 달성했으며, 텍스트 기반 시스템과 유사한 speech-to-speech 성능을 보였고 경쟁력 있는 텍스트 성능을 유지했습니다.

시사점, 한계점

진정한 speech-to-speech LLM의 새로운 패러다임 제시
표현력 있고 효율적인 end-to-end 음성 상호작용의 가능성 제시
음성 질의 응답 분야에서 최첨단 성능 달성
텍스트 기반 시스템과 유사한 speech-to-speech 성능
경쟁력 있는 텍스트 성능 유지
텍스트 중간 단계를 사용하지 않아 잠재적인 병목 현상 제거
구체적인 한계점은 논문에서 추가적으로 확인 필요
👍