Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Zero-shot Emotion Annotation in Facial Images Using Large Multimodal Models: Benchmarking and Prospects for Multi-Class, Multi-Frame Approaches

Created by
  • Haebom

作者

He Zhang, Xinyi Fu

概要

この研究では、大規模マルチモーダルモデル(LMM)を活用して、日常のシナリオで人間の感情を自動的に注釈付けする実行可能性とパフォーマンスを調査しました。公的に入手可能なFERV39kデータセットのDailyLifeサブセットについて実験を行い、ビデオセグメントから抽出された主要フレームの高速ゼロショットラベリングにGPT-4o-miniモデルを使用しました。 7つの感情分類システム(「怒り」、「嫌悪」、「恐怖」、「幸福」、「中立」、「悲しみ」、「驚き」)の下で、LMMは約50%の平均精度を達成しました。一方、3つの感情分類(否定的/中立的/肯定的)に制限した場合、平均精度は約64%に増加しました。さらに、ラベリングパフォーマンスを向上させ、コストを削減するために、1〜2秒のビデオクリップ内の複数のフレームを統合する戦略を検討しました。結果は,これらのアプローチがコメントの精度をわずかに改善できることを示した。全体として、私たちの予備的な結果は、ゼロショットLMMが人間の顔感情注釈作業に適用される可能性を強調し、ラベリングコストを削減し、複雑なマルチモーダル環境でLMMの適用性を拡大する新しい方法を提供します。

Takeaways、Limitations

Takeaways:
ゼロショットLMMを活用した人間感情自動注釈化の可能性を提示。
3進分類(否定的/中立的/肯定的)は、7進分類よりも高い精度を示します。
マルチフレーム統合戦略による注釈精度と効率向上の可能性の確認
LMMベースの感情分析のコスト削減とカバレッジスケーラビリティの提示
Limitations:
50% 内外の比較的低い平均精度。 (7進分類基準)
特定のデータセット(FERV39kのDailyLifeサブセット)の結果であり、一般化の可能性に関するさらなる研究が必要です。
マルチフレーム統合戦略の性能向上は少ない。
GPT-4o-miniモデルの限界による性能劣化の可能性
より多様で幅広いデータセットとモデルに関するさらなる研究が必要です。
👍