DeepOmni: Towards Seamless and Smart Speech Interaction with Adaptive Modality-Specific MoE
Created by
Haebom
作者
Hang Shao, Heting Gao, Yunhang Shen, Jiawei Chen, Zuwei Long, Dong Yang, Ke Li, Xing Sun
概要
この論文は、ネイティブマルチモーダルラージ言語モデル(MLLM)の問題である災害忘却とパフォーマンスの低下を解決するために、DeepTalkというフレームワークを提案します。 DeepTalkはMixture of Experts(MoE)アーキテクチャに基づいており、モダリティの専門家を適応的に区別して、各専門家が単一のモダリティトレーニングと共同マルチモーダルコラボレーショントレーニングを実行するようにします。これにより、従来のLLMと比較して5.5%の性能低下のみが見られ、0.5秒以内の応答遅延時間を維持し、自然な音声相互作用体験を提供する。