Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models
Created by
Haebom
저자
Zhifei Xie, Ziyang Ma, Zihang Liu, Kaiyu Pang, Hongyu Li, Jialin Zhang, Yue Liao, Deheng Ye, Chunyan Miao, Shuicheng Yan
개요
본 논문은 대규모 언어 모델(LLM)과 멀티모달 LLM에서 명시적 추론을 통합하는 것이 이해력과 일반화 능력을 향상시킨다는 점을 바탕으로, 음성 모델에서의 추론을 개선하기 위한 새로운 프레임워크인 Mini-Omni-Reasoner를 제안합니다. 기존의 "Thinking-before-Speaking" 방식은 추론 완료 후에만 음성 응답을 생성하여 지연 시간이 길다는 한계가 있으나, Mini-Omni-Reasoner는 "Thinking-in-Speaking" 방식을 통해 추론 토큰과 응답 토큰을 토큰 단위로 섞어서 실시간 음성 생성을 가능하게 합니다. 이는 모델의 고주파 토큰 처리 능력을 활용하여 자연스러우면서도 논리적인 음성 응답을 생성합니다. 또한, 이 프레임워크를 지원하기 위해 새롭게 구축한 Spoken-Math-Problems-3M 데이터셋을 활용하여 학습 효율을 높였습니다.
시사점, 한계점
•
시사점:
◦
음성 모델에서의 추론 지연 시간 문제를 "Thinking-in-Speaking" 방식으로 해결하여 실시간 상호작용 및 의사소통 효율을 향상시켰습니다.
◦
토큰 단위의 추론과 응답 토큰의 교차적 생성을 통해 자연스러운 음성 응답과 논리적 정확성을 동시에 달성했습니다.
◦
Spoken-Math-Problems-3M 데이터셋을 통해 음성 결합 추론 학습을 위한 효과적인 학습 데이터를 제공했습니다.
◦
Spoken-MQA 벤치마크에서 산술 추론 및 문맥 이해 능력을 크게 향상시켰습니다.
◦
짧은 출력 길이와 제로 디코딩 지연 시간을 달성했습니다.
•
한계점:
◦
제안된 "Thinking-in-Speaking" 방식과 Mini-Omni-Reasoner의 일반화 성능에 대한 추가적인 연구가 필요합니다.
◦
Spoken-Math-Problems-3M 데이터셋의 범위 및 다양성에 대한 한계가 존재할 수 있습니다. 다양한 종류의 추론 문제에 대한 일반화 성능 검증이 필요합니다.