Cette étude a examiné la faisabilité et les performances de l'annotation automatique des émotions humaines dans des scénarios quotidiens à l'aide de modèles multimodaux à grande échelle (MML). Nous avons mené des expériences sur le sous-ensemble « DailyLife » de la base de données publique FERV39k, en utilisant le modèle GPT-4o-mini pour l'étiquetage rapide et sans plan des images clés extraites de segments vidéo. Avec sept schémas de classification des émotions (« colère », « dégoût », « peur », « joie », « neutre », « tristesse » et « surprise »), les MML ont atteint une précision moyenne d'environ 50 %. Cependant, lorsqu'ils étaient limités à trois classifications d'émotions (négatif/neutre/positif), la précision moyenne atteignait environ 64 %. De plus, nous avons exploré une stratégie de fusion de plusieurs images au sein de clips vidéo de 1 à 2 secondes afin d'améliorer les performances d'étiquetage et de réduire les coûts. Les résultats indiquent que cette approche peut légèrement améliorer la précision des annotations. Dans l’ensemble, nos résultats préliminaires mettent en évidence le potentiel des LMM à tir nul pour les tâches d’annotation des émotions faciales humaines, offrant une nouvelle approche pour réduire les coûts d’étiquetage et élargir l’applicabilité des LMM dans des environnements multimodaux complexes.