この論文は、さまざまなアプリケーションに役立つ多モーダル感情分析の分野で、既存の方法のモーダル間の相関関係に過度の依存性と弱い相関関係を持つデータに関する低いパフォーマンス問題を解決するために提案された研究です。従来のモーダルインタラクションベース、モーダル変換ベース、モーダル類似性ベースの方法とは異なり、Correlation-aware Multimodal Transformer(CorMulT)という2段階の準マップ学習モデルを提示します。 CorMulTは、事前トレーニング段階でモーダル相関対照学習モジュールを介してモーダル間の相関係数を効率的に学習し、予測フェーズで学習された相関係数をモーダル表現と融合して感情予測を実行します。 CMU-MOSEIデータセット実験の結果、CorMulTは最先端の多モード感情分析方法を上回る性能を示しました。