Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models

Created by
  • Haebom

저자

Zhifei Xie, Ziyang Ma, Zihang Liu, Kaiyu Pang, Hongyu Li, Jialin Zhang, Yue Liao, Deheng Ye, Chunyan Miao, Shuicheng Yan

개요

본 논문은 대규모 언어 모델(LLM)과 멀티모달 LLM에서 명시적 추론을 통합하는 것이 이해력과 일반화 능력을 향상시킨다는 점을 바탕으로, 음성 모델에서의 추론을 개선하기 위한 새로운 프레임워크인 Mini-Omni-Reasoner를 제안합니다. 기존의 "Thinking-before-Speaking" 방식은 추론 완료 후에만 음성 응답을 생성하여 지연 시간이 길다는 한계가 있으나, Mini-Omni-Reasoner는 "Thinking-in-Speaking" 방식을 통해 추론 토큰과 응답 토큰을 토큰 단위로 섞어서 실시간 음성 생성을 가능하게 합니다. 이는 모델의 고주파 토큰 처리 능력을 활용하여 자연스러우면서도 논리적인 음성 응답을 생성합니다. 또한, 이 프레임워크를 지원하기 위해 새롭게 구축한 Spoken-Math-Problems-3M 데이터셋을 활용하여 학습 효율을 높였습니다.

시사점, 한계점

시사점:
음성 모델에서의 추론 지연 시간 문제를 "Thinking-in-Speaking" 방식으로 해결하여 실시간 상호작용 및 의사소통 효율을 향상시켰습니다.
토큰 단위의 추론과 응답 토큰의 교차적 생성을 통해 자연스러운 음성 응답과 논리적 정확성을 동시에 달성했습니다.
Spoken-Math-Problems-3M 데이터셋을 통해 음성 결합 추론 학습을 위한 효과적인 학습 데이터를 제공했습니다.
Spoken-MQA 벤치마크에서 산술 추론 및 문맥 이해 능력을 크게 향상시켰습니다.
짧은 출력 길이와 제로 디코딩 지연 시간을 달성했습니다.
한계점:
제안된 "Thinking-in-Speaking" 방식과 Mini-Omni-Reasoner의 일반화 성능에 대한 추가적인 연구가 필요합니다.
Spoken-Math-Problems-3M 데이터셋의 범위 및 다양성에 대한 한계가 존재할 수 있습니다. 다양한 종류의 추론 문제에 대한 일반화 성능 검증이 필요합니다.
모델의 복잡성 및 계산 비용에 대한 분석이 부족합니다.
👍