OpenS2Sは、共感的な音声対話のための完全にオープンソースで、透明でエンドツーエンドのLSLM(Language-Speech Language Model)です。 BLSP-Emoに基づいて、ストリーミングインタリーブド復号アーキテクチャを使用して低遅延時間の音声生成を実現します。自動化されたデータ構成パイプラインを活用して、高品質で共感的な音声会話を低コストで合成します。大規模な言語モデルを使用して共感的なコンテンツを生成し、制御可能なテキスト音声変換システムを使用して話者と感情的な変化を導入し、最小限の人の監督で豊富な言語多様性を備えた拡張可能なトレーニングコーパスを構築します。完全なオープンソースOpenS2Sモデル、データセット、モデルの重み、事前トレーニング、および微調整コードを公開します。