# CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning

### 저자

Zhaoyue Sun, Hainiu Xu, Andero Uusberg, James J. Gross, Petr Slovak, Yulan He

### 💡 개요

본 논문은 인간과의 효과적인 상호작용에 필수적인 LLM의 감정 이해 능력을 평가하기 위한 새로운 벤치마크인 CAREBench를 제안합니다. 기존 평가 방식의 한계를 극복하기 위해 인지적 평가 이론에 기반하여 인지적 평가 추론, 평가 등급, 다중 레이블 감정 주석을 포함하는 포괄적인 추론 체인 주석을 제공합니다. 이를 통해 LLM의 감정 이해를 보다 진단적으로 평가하고, 현재 모델들의 감정 이해 능력의 한계를 명확히 합니다.

### 🔑 시사점 및 한계

- CAREBench는 LLM의 감정 이해 능력을 기존의 단일 레이블 예측 방식을 넘어선 인지적 과정까지 평가할 수 있는 최초의 벤치마크입니다.

- 연구 결과, 일부 LLM은 특정 작업에서 인간 수준에 근접하거나 능가하지만, 인지적 평가 추론 및 긍정 감정 인식에서는 여전히 부족함을 보입니다.

- 현재 LLM은 인간의 주관적 다양성을 포착하는 데 필요한 메커니즘을 내재화하지 못했으며, 이는 다운스트림 감정 예측 메트릭이 LLM의 진정한 감정 이해도를 과대평가할 수 있음을 시사합니다.

- 향후 연구는 LLM이 인간의 주관적 경험과 복잡한 감정적 인지 과정을 더 잘 이해하고 모방하도록 개선하는 데 초점을 맞춰야 합니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.17176)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
