본 논문은 LVLMs(Large Visual Language Models)을 이용한 시각적 감정 분류를 위한 훈련이 필요 없는 컨텍스트 학습 방법인 EmoGist를 소개합니다. EmoGist는 감정이 이미지 내에서 나타나는 방식이 맥락에 따라 매우 다르다는 점에 착안하여, 맥락에 의존적인 감정 레이블 정의를 통해 더 정확한 감정 예측을 가능하게 합니다. 각 감정 카테고리에 속하는 예시 이미지들의 클러스터를 분석하여 여러 감정 레이블 설명을 미리 생성하고, 테스트 시에는 임베딩 유사성을 기반으로 설명의 버전을 검색하여 빠른 VLM에 입력하여 분류합니다. 실험 결과, EmoGist는 다중 레이블 Memotion 데이터셋에서 최대 13점의 마이크로 F1 점수 향상, 다중 클래스 FI 데이터셋에서 최대 8점의 매크로 F1 점수 향상을 보였습니다.