본 논문은 인간 피드백 강화 학습(RLHF) 기반의 대규모 언어 모델(LLM) 정렬 연구에 관한 것이다. 특히, 그룹 상대 정책 최적화(GRPO)의 단점을 해결하기 위해 도메인 정보를 활용한 자기 일관성 정책 최적화(DISCO)를 제안한다. GRPO는 간단하고 성능이 우수하지만, 실제 데이터셋의 불균형과 다양한 도메인 분포를 고려하지 못하는 한계를 지닌다. DISCO는 도메인별 보상 조정과 어려움을 고려한 보상 조정을 통해 이러한 문제를 해결한다. 도메인별 보상 조정은 도메인 빈도수 편향을 해결하고, 어려움을 고려한 보상 조정은 자기 일관성을 이용하여 불확실한 프롬프트에 우선순위를 부여하여 학습 효율을 높인다. 다양한 LLM과 불균형 데이터셋을 이용한 실험 결과, DISCO는 기존 GRPO보다 성능이 향상되었고, 다중 도메인 정렬 벤치마크에서 최고 성능을 달성했다.
시사점, 한계점
•
시사점:
◦
불균형 데이터셋에서의 LLM 정렬 문제를 효과적으로 해결하는 새로운 방법(DISCO) 제시
◦
도메인별 및 어려움 고려 보상 조정을 통해 더욱 공정하고 효과적인 정책 학습 가능성 제시
◦
Qwen3 모델에서 기존 GRPO 대비 5% 향상된 성능 달성 및 다중 도메인 정렬 벤치마크에서 최고 성능 기록
◦
GRPO의 한계점을 명확히 지적하고 개선 방향을 제시
•
한계점:
◦
제안된 방법의 일반성 및 확장성에 대한 추가적인 연구 필요
◦
다양한 LLM과 데이터셋에 대한 추가적인 실험 필요
◦
특정 벤치마크에 대한 성능 향상이 실제 응용 분야에서의 성능 향상으로 이어질지에 대한 추가 검증 필요