# Beyond Overlap Metrics: Rewarding Reasoning and Preferences for Faithful Multi-Role Dialogue Summarization

### 저자

Xiaoyong Mei, Tingting Zuo, Da Chen, Guangyu Hu, Xiangyu Wen, Chao Duan, Mingyan Zhang, Fudan Zheng

### 💡 개요

본 논문은 여러 화자가 참여하는 다중 역할 대화 요약에서 표면적인 유사성만을 평가하는 기존 방식의 한계를 지적하며, 인지적 추론과 인간 선호도를 반영하는 새로운 프레임워크를 제안합니다. 제안 방식은 대규모 모델로부터 추출된 구조화된 추론 과정을 보조 지도 학습으로 활용하고, 이후 GRPO를 통해 핵심 정보, 추론, 사실성, 간결성을 고려한 보상 모델을 적용하여 요약기를 최적화합니다. 이를 통해 기존 지표에서 경쟁력 있는 성능을 유지하면서도 사실적 충실도와 인간 선호도에 더 잘 부합하는 요약을 생성합니다.

### 🔑 시사점 및 한계

- **인지적 추론 강화:** 명시적인 추론 과정을 학습에 통합함으로써, 단순히 참조 텍스트를 모방하는 것이 아니라 대화 내용을 깊이 이해하고 요약하는 능력을 향상시킬 수 있습니다.

- **인간 선호도 반영:** 단순 지표를 넘어 인간이 중요하게 여기는 정보 포함, 암시적 추론, 사실적 정확성 등을 보상 기준으로 삼아 더욱 유용하고 신뢰할 수 있는 요약을 생성합니다.

- **데이터 및 모델 복잡성:** 추론 과정을 추출하고, 단계별 지도 학습을 수행하며, 강화 학습을 적용하는 과정이 복잡하고 추가적인 데이터 및 연산 자원을 요구할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2604.17188)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).