Dans cet article, nous effectuons une analyse multimodale des sentiments à l'aide d'un modèle basé sur un transformateur qui fusionne précocement les modalités texte, audio et vidéo à l'aide du jeu de données CMU-MOSEI. Nous extrayons les intégrations pour chaque modalité à l'aide d'un encodeur BERT, puis les concaténons pour la classification. Nous obtenons une précision de 97,87 % sur 7 classes et un score F1 de 0,9682, démontrant l'efficacité de la fusion précoce. De plus, le MAE est de 0,1060, démontrant une prédiction précise de l'intensité émotionnelle. Nous garantissons la généralisation et la robustesse grâce à l'optimiseur Adam (lr = 1e-4), au dropout (0,3) et à l'arrêt précoce.