Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Chronological Thinking in Full-Duplex Spoken Dialogue Language Models

Created by
  • Haebom

作者

Donghang Wu, Haoyang Zhang, Chen Chen, Tianyu Zhang, Fei Tian, Xuerui Yang, Gang Yu, Hexin Liu, Nana Hou, Yuchen Hu, Eng Siong Chng

概要

本論文は、完全二重システムにおいてユーザの音声ストリームを継続的に感知し、応答を生成するスポケンダイアログ言語モデル(SDLM)の進歩を扱う。既存のシステムが聞いている間にサイレントトークンを繰り返し予測してアイドル状態に保たれる問題を解決するために、本論文はクロノロジカルシンキングと呼ばれるオンザフライ conversational thinkingメカニズムを提案する。これは、Chain-of-Thoughtなどの従来のLLM思考方式とは異なり、ストリーミング音響入力に合わせて設計されており、厳格な因果性と追加の遅延なし(no additional latency)を特徴としています。実験の結果、Chronological Thinkingは客観的指標と人間評価の両方で応答品質を向上させ、対話力学を効果的に処理し、完全二重相互作用指標で競争力のあるパフォーマンスを達成しました。

Takeaways、Limitations

Takeaways:
完全二重SDLMにおける応答品質を改善する新しい思考機構の提示
ストリーミング音声入力に特化した因果的で遅延のない考え方の実装。
客観的指標と人間の評価によるChronological Thinkingの効果の実証
対話力学処理と完全二重相互作用指標で競争力のある性能を達成
Limitations:
論文の内容に具体的なLimitations言及はありません。
👍