Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DeepOmni: Towards Seamless and Smart Speech Interaction with Adaptive Modality-Specific MoE

Created by
  • Haebom

作者

Hang Shao, Heting Gao, Yunhang Shen, Jiawei Chen, Zuwei Long, Dong Yang, Ke Li, Xing Sun

概要

この論文は、ネイティブマルチモーダルラージ言語モデル(MLLM)の問題である災害忘却とパフォーマンスの低下を解決するために、DeepTalkというフレームワークを提案します。 DeepTalkはMixture of Experts(MoE)アーキテクチャに基づいており、モダリティの専門家を適応的に区別して、各専門家が単一のモダリティトレーニングと共同マルチモーダルコラボレーショントレーニングを実行するようにします。これにより、従来のLLMと比較して5.5%の性能低下のみが見られ、0.5秒以内の応答遅延時間を維持し、自然な音声相互作用体験を提供する。

Takeaways、Limitations

Takeaways:
ネイティブMLLMのパフォーマンス低下の問題を解決する新しいフレームワークの提示。
MoEアーキテクチャを活用してモダリティの専門家を効果的に学びます。
従来のMLLMと比較して低性能劣化と短い応答遅延時間を達成
Seamless and intelligent speech interaction 経験を提供
Limitations:
論文では、具体的な性能向上数値や既存モデルとの比較分析は詳細に示されていない。
DeepTalkの一般化性能に関するさらなる研究の必要性
さまざまなデータセットや作業環境での検証が必要です。
👍