この研究では、大規模マルチモーダルモデル(LMM)を活用して、日常のシナリオで人間の感情を自動的に注釈付けする実行可能性とパフォーマンスを調査しました。公的に入手可能なFERV39kデータセットのDailyLifeサブセットについて実験を行い、ビデオセグメントから抽出された主要フレームの高速ゼロショットラベリングにGPT-4o-miniモデルを使用しました。 7つの感情分類システム(「怒り」、「嫌悪」、「恐怖」、「幸福」、「中立」、「悲しみ」、「驚き」)の下で、LMMは約50%の平均精度を達成しました。一方、3つの感情分類(否定的/中立的/肯定的)に制限した場合、平均精度は約64%に増加しました。さらに、ラベリングパフォーマンスを向上させ、コストを削減するために、1〜2秒のビデオクリップ内の複数のフレームを統合する戦略を検討しました。結果は,これらのアプローチがコメントの精度をわずかに改善できることを示した。全体として、私たちの予備的な結果は、ゼロショットLMMが人間の顔感情注釈作業に適用される可能性を強調し、ラベリングコストを削減し、複雑なマルチモーダル環境でLMMの適用性を拡大する新しい方法を提供します。