# PEER: Unified Process-Outcome Reinforcement Learning for Structured Empathetic Reasoning

### 저자

Yunxiao Wang, Meng Liu, Kaiyu Jiang, Bin Wen, Fan Yang, Tingting Gao, Lizi Liao

### 💡 개요

본 연구는 정서적 지지 대화에서 단순한 유창함을 넘어, 상황과 감정 이해, 적절한 전략 선택, 자연스러운 응답 생성을 목표로 하는 '구조화된 공감적 추론'을 제안합니다. 이를 위해 대화 기록 분석, 다중 모달 감정 상태 추론, 전략 선택의 3단계 추론 과정을 도입했으며, 단계별 정확도와 응답 선호도를 포함하는 SER 데이터셋과 GRPO 기반의 PEER 모델을 개발하여 제안된 추론 과정과 최종 응답을 평가하는 통합된 프로세스-결과 보상 모델을 사용했습니다. 실험 결과, PEER는 다양성을 희생하지 않으면서도 공감 능력, 전략 일치도, 인간적 유사성을 향상시키는 것으로 나타났습니다.

### 🔑 시사점 및 한계

- 감정적 지지 대화에서 인간의 복잡한 의사결정 과정을 모방하는 구조화된 추론 프레임워크의 중요성을 강조합니다.

- 프로세스 및 결과 모두를 고려하는 통합 보상 모델(UnifiReward)을 통해 강화 학습의 적용 가능성을 높였습니다.

- 개인화된 재작성과 중복 응답 가중치 조정을 통해 생성된 응답의 다양성과 독창성을 확보하는 방법을 제시했습니다.

- 본 연구에서 제시된 SER 데이터셋의 크기와 다양성이 실제 복잡하고 다양한 인간의 감정적 지지 대화 시나리오를 완전히 포괄하기에는 한계가 있을 수 있으며, 다중 모달 감정 추론 시 데이터의 편향성 또는 접근성 문제가 발생할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2508.09521)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).