본 논문은 대규모 언어 모델(LLM)이 감정을 표현하는 특정 텍스트 범위를 식별하는 능력을 테스트하기 위한 SEER(Span-based Emotion Evidence Retrieval) 벤치마크를 소개합니다. 기존의 감정 인식 작업과 달리, SEER는 감정이 무엇인지 뿐만 아니라 감정이 어떻게 표현되는지를 파악하는 것을 목표로 합니다. SEER는 단일 문장 내에서 감정 증거를 식별하는 작업과, 5개의 연속된 문장으로 구성된 짧은 구절에서 증거를 식별하는 두 가지 작업을 포함합니다. 1200개의 실제 문장에 대한 새로운 감정 및 감정 증거 주석이 포함되어 있으며, 14개의 오픈 소스 LLM을 평가한 결과, 일부 모델은 단일 문장 입력에서 평균적인 인간 성능에 근접하지만, 더 긴 구절에서는 정확도가 감소했습니다.