Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

Created by
  • Haebom

作者

Yiqun Yao, Xiang Li, Xin Jiang, Xuezhi Fang, Naitong Yu, Wenjia Ma, Aixin Sun, Yequan Wang

概要

本論文は,全二重会話モデルにおいて低い遅延時間を達成するために,各時間段階で複数のチャネルをマージするネイティブソリューションを提示する。従来の単語レベルソート方式が言語モデリング性能を低下させる問題を解決するために、人間の会話行動を模倣した連続文と待機間隔からなる「自然モノログ」を導入する。自然なモノラルとオーディオの意味的なアライメントのために、モノラルの位置を変えながら学習する二重学習方式を開発し、7Bパラメータを持つ全二重会話チャットボットFLM-Audioを開発しました。実験の結果、FLM-Audioは従来のモデルよりも優れた応答品質と会話体験を提供し、はるかに少ない学習データを必要とすることを示しました。

Takeaways、Limitations

Takeaways:
ネイティブ全二重会話モデルにおける低遅延時間と高言語モデリング性能を同時に達成する可能性を提示
自然モノラルと二重学習方式による効率的な全二重会話モデル学習方法の提示
少ない学習データでも優れた性能を達成する軽量化されたモデル開発の可能性を提示。
Limitations:
提案された方法の一般化性能のさらなる検証が必要である。
さまざまな会話タイプと言語の適用可能性研究が必要
7BパラメータのFLM-Audioモデルの計算リソース消費の分析が必要です。
👍