Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Speech Emotion Recognition via Entropy-Aware Score Selection

Created by
  • Haebom

作者

ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao

概要

本稿では、音声感情認識のためのマルチモーダルフレームワークを提案します。 Wav2vec2.0ベースの音響モデルとRoBERTa-XLMベースの感情分析モデル(Whisper-large-v3を使用した転写を使用)を統合し、エントロピーベースのスコア選択を介して音声とテキストの予測結果を組み合わせます。主要なパイプライン予測の信頼性制約を克服するために、エントロピーおよびバレントロピーしきい値に基づく後期スコア融合スキームを提案します。 3つの感情カテゴリを4つの目標感情クラスに変換する感情マッピング戦略により、マルチモーダル予測の一貫した統合が可能になります。 IEMOCAPおよびMSP-IMPROVデータセットの結果は、提案された方法が既存の単一モーダルシステムよりも実用的で信頼できる改善を提供することを示しています。

Takeaways、Limitations

Takeaways:
音声とテキスト情報を効果的に組み合わせることで音声感情認識性能を向上させる可能性を提示
エントロピーに基づくスコアの選択による信頼性制約の克服とマルチモーダル予測の効率的な統合戦略の提示
IEMOCAPおよびMSP-IMPROVデータセットの既存のシングルモーダルシステムと比較してパフォーマンスの向上を確認します。
Limitations:
提案された方法の一般化性能のさらなる検証が必要である。さまざまなデータセットや言語の実験結果が不足しています。
感情マッピング戦略の妥当性に関するさらなる分析の必要性他の感情分類体系に対する適用性の検討が必要
特定モデル(Wav2vec2.0, RoBERTa-XLM, Whisper-large-v3)に依存する部分が存在し,他のモデルへのスケーラビリティのレビューが必要である。
👍