# Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation

### 저자

Guining Cao, Jiaxin Peng, Chu Zeng, Yu Zhao, Shuangyong Song,  Yongxiang

### 💡 개요

본 논문은 개방형 생성 작업에서 보상 모델 학습의 어려움과 다양성 부족 문제를 해결하기 위해 Pairwise Preference Reward and Group-based Diversity Enhancement (PPR-GDE) 방법을 제안합니다. PPR-GDE는 스칼라 보상 없이도 쌍대 선호도와 그룹 기반 다양성을 통합하여, 주관적 평가의 비교 구조를 유지하고 응답 그룹 내 의미적 분산을 장려합니다. 이를 통해 기존 RL 기반 방법보다 우수한 정렬 품질과 표현적 다양성을 달성합니다.

### 🔑 시사점 및 한계

- 주관적 평가에서 선호도 정렬을 위해 쌍대 선호도 기반 보상이 효과적임을 보여줍니다.

- 그룹 기반 다양성 보상이 표현적 다양성과 더 넓은 의미적 범위를 달성하는 데 중요한 역할을 합니다.

- 향후 연구에서는 다양한 개방형 생성 태스크에 PPR-GDE를 확장하고, 보상 신호의 효과적인 통합 방안을 더욱 탐색할 필요가 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.18191)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).