本稿では、CMU-MOSEIデータセットを使用して、テキスト、オーディオ、ビデオモダリティを早期に融合するトランスベースのモデルを使用したマルチモーダル感情分析を実行します。各モダリティにBERTベースのエンコーダを使用して埋め込みを抽出し、それらを連結して分類します。 7クラス精度97.87%、F1スコア0.9682を達成し、早期融合の効果を示し、MAEは0.1060で正確な感情強度予測を示した。 Adam optimizer(lr=1e-4), dropout(0.3), early stopping を使用して一般化と堅牢性を確保しました。