Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Zero-shot Emotion Annotation in Facial Images Using Large Multimodal Models: Benchmarking and Prospects for Multi-Class, Multi-Frame Approaches

Created by
  • Haebom

저자

He Zhang, Xinyi Fu

개요

본 연구는 대규모 다중 모달 모델(LMMs)을 활용하여 일상 시나리오에서 인간의 감정을 자동으로 주석화하는 실행 가능성과 성능을 조사했습니다. 공개적으로 이용 가능한 FERV39k 데이터셋의 DailyLife 하위 집합에 대해 실험을 수행했으며, 비디오 세그먼트에서 추출된 주요 프레임에 대한 신속한 제로샷 라벨링을 위해 GPT-4o-mini 모델을 사용했습니다. 7가지 감정 분류 체계("분노", "혐오", "공포", "행복", "중립", "슬픔", "놀람") 하에서 LMM은 약 50%의 평균 정밀도를 달성했습니다. 반면, 3가지 감정 분류(부정적/중립적/긍정적)로 제한했을 때 평균 정밀도는 약 64%로 증가했습니다. 또한, 라벨링 성능을 향상시키고 비용을 절감하기 위해 1~2초 비디오 클립 내의 여러 프레임을 통합하는 전략을 탐색했습니다. 결과는 이러한 접근 방식이 주석 정확도를 약간 향상시킬 수 있음을 나타냅니다. 전반적으로, 우리의 예비 결과는 제로샷 LMM이 인간 얼굴 감정 주석 작업에 적용될 수 있는 잠재력을 강조하며, 라벨링 비용을 줄이고 복잡한 다중 모달 환경에서 LMM의 적용 가능성을 확대하는 새로운 방법을 제공합니다.

시사점, 한계점

시사점:
제로샷 LMM을 활용한 인간 감정 자동 주석화의 가능성을 제시.
3진 분류(부정적/중립적/긍정적)가 7진 분류보다 더 높은 정확도를 보임.
다중 프레임 통합 전략을 통해 주석 정확도 및 효율성 향상 가능성 확인.
LMM 기반 감정 분석의 비용 절감 및 적용 범위 확장 가능성 제시.
한계점:
50% 내외의 상대적으로 낮은 평균 정밀도. (7진 분류 기준)
특정 데이터셋(FERV39k의 DailyLife 하위 집합)에 대한 결과이며 일반화 가능성에 대한 추가 연구 필요.
다중 프레임 통합 전략의 성능 향상이 미미함.
GPT-4o-mini 모델의 한계로 인한 성능 저하 가능성.
더욱 다양하고 광범위한 데이터셋과 모델에 대한 추가 연구 필요.
👍