Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EmoGist: Efficient In-Context Learning for Visual Emotion Understanding

Created by
  • Haebom

저자

Ronald Seoh, Dan Goldwasser

개요

본 논문은 LVLMs(Large Visual Language Models)을 이용한 시각적 감정 분류를 위한 훈련이 필요 없는 컨텍스트 학습 방법인 EmoGist를 소개합니다. EmoGist는 감정이 이미지 내에서 나타나는 방식이 맥락에 따라 매우 다르다는 점에 착안하여, 맥락에 의존적인 감정 레이블 정의를 통해 더 정확한 감정 예측을 가능하게 합니다. 각 감정 카테고리에 속하는 예시 이미지들의 클러스터를 분석하여 여러 감정 레이블 설명을 미리 생성하고, 테스트 시에는 임베딩 유사성을 기반으로 설명의 버전을 검색하여 빠른 VLM에 입력하여 분류합니다. 실험 결과, EmoGist는 다중 레이블 Memotion 데이터셋에서 최대 13점의 마이크로 F1 점수 향상, 다중 클래스 FI 데이터셋에서 최대 8점의 매크로 F1 점수 향상을 보였습니다.

시사점, 한계점

시사점:
훈련이 필요 없는 컨텍스트 학습 방법을 통해 LVLMs 기반 시각적 감정 분류 성능 향상 가능성 제시.
맥락에 의존적인 감정 레이블 정의의 효용성 증명.
다양한 감정 분류 데이터셋에서의 성능 향상 확인.
한계점:
구체적인 LVLMs의 종류 및 사양에 대한 자세한 설명 부족.
EmoGist의 확장성 및 일반화 성능에 대한 추가적인 연구 필요.
다른 감정 분류 방법들과의 비교 분석이 더욱 필요.
👍