SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation
Created by
Haebom
저자
Wenyi Yu, Siyin Wang, Xiaoyu Yang, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Guangzhi Sun, Lu Lu, Yuxuan Wang, Chao Zhang
개요
SALMONN-omni는 오디오 코덱 없이 단일 독립형 전이중 음성 LLM으로, 음성과 청취 상태 간 전환 시기를 학습하는 동적 사고 메커니즘을 특징으로 합니다. 기존의 모듈식 전이중 대화 시스템의 오류 누적 문제와 컨텍스트 의존적 끼어들기 및 에코 제거와 같은 어려움을 해결하기 위해 설계되었습니다. 기존 오픈소스 전이중 모델 대비 최소 30%의 성능 향상을 보이며, 상당히 적은 훈련 데이터를 사용하면서도 반이중 및 턴 기반 시스템과 경쟁력 있는 성능을 보여줍니다. 질의응답 및 개방형 대화 벤치마크에서 우수한 성능을 입증했으며, 턴 교대, 백채널링, 에코 제거, 컨텍스트 의존적 끼어들기 등 복잡한 대화 시나리오에서도 강력한 성능을 보여줍니다. 강화 학습을 통해 추가적인 성능 향상을 이루었습니다.
시사점, 한계점
•
시사점:
◦
오디오 코덱 없이 단일 LLM로 전이중 음성 상호작용을 가능하게 함으로써 시스템 복잡성을 줄이고 오류 누적을 방지합니다.
◦
기존 오픈소스 전이중 모델보다 훨씬 향상된 성능을 보이며, 적은 훈련 데이터로도 높은 성능을 달성합니다.