Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data

Created by
  • Haebom

저자

Yuhang Zhou, Jing Zhu, Shengyi Qian, Zhuokai Zhao, Xiyao Wang, Xiaoyu Liu, Ming Li, Paiheng Xu, Wei Ai, Furong Huang

개요

본 논문은 인간 피드백 강화 학습(RLHF) 기반의 대규모 언어 모델(LLM) 정렬 연구에 관한 것이다. 특히, 그룹 상대 정책 최적화(GRPO)의 단점을 해결하기 위해 도메인 정보를 활용한 자기 일관성 정책 최적화(DISCO)를 제안한다. GRPO는 간단하고 성능이 우수하지만, 실제 데이터셋의 불균형과 다양한 도메인 분포를 고려하지 못하는 한계를 지닌다. DISCO는 도메인별 보상 조정과 어려움을 고려한 보상 조정을 통해 이러한 문제를 해결한다. 도메인별 보상 조정은 도메인 빈도수 편향을 해결하고, 어려움을 고려한 보상 조정은 자기 일관성을 이용하여 불확실한 프롬프트에 우선순위를 부여하여 학습 효율을 높인다. 다양한 LLM과 불균형 데이터셋을 이용한 실험 결과, DISCO는 기존 GRPO보다 성능이 향상되었고, 다중 도메인 정렬 벤치마크에서 최고 성능을 달성했다.

시사점, 한계점

시사점:
불균형 데이터셋에서의 LLM 정렬 문제를 효과적으로 해결하는 새로운 방법(DISCO) 제시
도메인별 및 어려움 고려 보상 조정을 통해 더욱 공정하고 효과적인 정책 학습 가능성 제시
Qwen3 모델에서 기존 GRPO 대비 5% 향상된 성능 달성 및 다중 도메인 정렬 벤치마크에서 최고 성능 기록
GRPO의 한계점을 명확히 지적하고 개선 방향을 제시
한계점:
제안된 방법의 일반성 및 확장성에 대한 추가적인 연구 필요
다양한 LLM과 데이터셋에 대한 추가적인 실험 필요
특정 벤치마크에 대한 성능 향상이 실제 응용 분야에서의 성능 향상으로 이어질지에 대한 추가 검증 필요
👍