Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model

Created by
  • Haebom

作者

Chen Wang, Tianyu Peng, Wen Yang, Yinan Bai, Guangfu Wang, Jun Lin, Lanpeng Jia, Lingxiang Wu, Jinqiao Wang, Chengqing Zong, Jiajun Zhang

概要

OpenS2Sは、共感的な音声対話のための完全にオープンソースで、透明でエンドツーエンドのLSLM(Language-Speech Language Model)です。 BLSP-Emoに基づいて、ストリーミングインタリーブド復号アーキテクチャを使用して低遅延時間の音声生成を実現します。自動化されたデータ構成パイプラインを活用して、高品質で共感的な音声会話を低コストで合成します。大規模な言語モデルを使用して共感的なコンテンツを生成し、制御可能なテキスト音声変換システムを使用して話者と感情的な変化を導入し、最小限の人の監督で豊富な言語多様性を備えた拡張可能なトレーニングコーパスを構築します。完全なオープンソースOpenS2Sモデル、データセット、モデルの重み、事前トレーニング、および微調整コードを公開します。

Takeaways、Limitations

Takeaways:
完全オープンソースモデルで、LSLMと共感的な行動研究の透明性を高めます。
低遅延時間の音声生成のためのストリーミングインターリーブド復号アーキテクチャ。
自動化されたデータ構成パイプラインによる効率的なデータ生成。
大規模言語モデルとテキスト音声変換システムを活用した豊富なデータ多様性の確保
広範な研究コミュニティに貢献し、共感音声システムの革新を加速
Limitations:
この論文では、Limitationsは明示的に言及されていません。
👍