본 연구는 대규모 다중 모달 모델(LMMs)을 활용하여 일상 시나리오에서 인간의 감정을 자동으로 주석화하는 실행 가능성과 성능을 조사했습니다. 공개적으로 이용 가능한 FERV39k 데이터셋의 DailyLife 하위 집합에 대해 실험을 수행했으며, 비디오 세그먼트에서 추출된 주요 프레임에 대한 신속한 제로샷 라벨링을 위해 GPT-4o-mini 모델을 사용했습니다. 7가지 감정 분류 체계("분노", "혐오", "공포", "행복", "중립", "슬픔", "놀람") 하에서 LMM은 약 50%의 평균 정밀도를 달성했습니다. 반면, 3가지 감정 분류(부정적/중립적/긍정적)로 제한했을 때 평균 정밀도는 약 64%로 증가했습니다. 또한, 라벨링 성능을 향상시키고 비용을 절감하기 위해 1~2초 비디오 클립 내의 여러 프레임을 통합하는 전략을 탐색했습니다. 결과는 이러한 접근 방식이 주석 정확도를 약간 향상시킬 수 있음을 나타냅니다. 전반적으로, 우리의 예비 결과는 제로샷 LMM이 인간 얼굴 감정 주석 작업에 적용될 수 있는 잠재력을 강조하며, 라벨링 비용을 줄이고 복잡한 다중 모달 환경에서 LMM의 적용 가능성을 확대하는 새로운 방법을 제공합니다.