본 논문은 최근 발전된 대규모 언어 모델(LLM)의 감정 분석 능력을 종합적으로 평가한 연구입니다. 특히 오픈소스 LLM인 DeepSeek-R1 시리즈 모델의 감정 분석 성능을 OpenAI의 GPT-4 및 GPT-4-mini와 비교 분석했습니다. 몇 번의 예시(few-shot prompting)를 사용하여 최대 50개의 예시까지 확장하며 문맥 내 학습 효과를 평가했고, DeepSeek-R1이 특히 다중 클래스 감정 분석 과제에서 경쟁력 있는 정확도를 보이며 상세한 추론 과정을 통해 향상된 해석력을 제공함을 밝혔습니다. 또한, 몇 번의 예시를 늘리는 것이 모델 성능에 미치는 영향과 해석력과 계산 효율성 사이의 주요 trade-off를 논의합니다.