Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SEER: The Span-based Emotion Evidence Retrieval Benchmark

Created by
  • Haebom

저자

Aneesha Sampath, Oya Aran, Emily Mower Provost

개요

본 논문은 대규모 언어 모델(LLM)이 감정을 표현하는 특정 텍스트 범위를 식별하는 능력을 테스트하기 위한 SEER(Span-based Emotion Evidence Retrieval) 벤치마크를 소개합니다. 기존의 감정 인식 작업과 달리, SEER는 감정이 무엇인지 뿐만 아니라 감정이 어떻게 표현되는지를 파악하는 것을 목표로 합니다. SEER는 단일 문장 내에서 감정 증거를 식별하는 작업과, 5개의 연속된 문장으로 구성된 짧은 구절에서 증거를 식별하는 두 가지 작업을 포함합니다. 1200개의 실제 문장에 대한 새로운 감정 및 감정 증거 주석이 포함되어 있으며, 14개의 오픈 소스 LLM을 평가한 결과, 일부 모델은 단일 문장 입력에서 평균적인 인간 성능에 근접하지만, 더 긴 구절에서는 정확도가 감소했습니다.

시사점, 한계점

시사점:
감정 표현의 특정 부분을 식별하는 데 초점을 맞춘 새로운 벤치마크(SEER)를 제시하여, 기존 감정 인식 작업의 한계를 보완함.
공감 대화 및 임상 지원과 같은 응용 분야에 필요한 세밀한 감정 분석 능력을 평가.
오픈 소스 LLM의 성능을 평가하고, 모델의 강점과 약점을 파악.
한계점:
긴 구절에서 모델의 정확도가 감소하여, 문맥적 이해 및 장거리 의존성 해결의 어려움을 시사.
감정 키워드에 대한 과도한 의존 및 중립 텍스트에서의 오탐과 같은 오류 패턴을 보임.
평가된 LLM의 수가 제한적이며, 더 다양한 모델에 대한 추가 평가 필요.
👍