Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data

Created by
  • Haebom

저자

Yuhang Zhou, Jing Zhu, Shengyi Qian, Zhuokai Zhao, Xiyao Wang, Xiaoyu Liu, Ming Li, Paiheng Xu, Wei Ai, Furong Huang

개요

본 논문은 대규모 언어 모델(LLM)의 인간 선호도 정렬을 위한 강화 학습 기법인 그룹 상대 정책 최적화(GRPO)의 한계를 지적하고, 이를 개선한 새로운 방법인 도메인 정보 자기 일관성 정책 최적화(DISCO)를 제안합니다. GRPO는 균형 잡힌 도메인 분포와 균일한 의미 정렬을 가정하지만, 실제 데이터셋에서는 이러한 가정이 성립하지 않습니다. DISCO는 도메인별 보상 조정과 난이도별 보상 조정이라는 두 가지 혁신을 통해 도메인 불균형 문제를 해결합니다. 도메인별 보상 조정은 도메인 빈도를 기반으로 가중치를 재조정하여 빈도 편향을 해소하고, 난이도별 보상 조정은 프롬프트 수준의 자기 일관성을 활용하여 불확실한 프롬프트를 우선적으로 학습하여 효율성을 높입니다. 실험 결과, DISCO는 다양한 LLM과 불균형 데이터셋에서 일반화 성능을 향상시키고, 기존 GRPO 변형보다 성능이 5% 향상되었으며, 다중 도메인 정렬 벤치마크에서 최첨단 성능을 달성했습니다.

시사점, 한계점

시사점:
도메인 불균형 문제를 가진 실제 데이터셋에서 LLM의 인간 선호도 정렬 성능을 향상시키는 새로운 방법(DISCO)을 제시.
도메인별 및 난이도별 보상 조정을 통해 GRPO의 한계를 극복하고, 더욱 공정하고 효과적인 정책 학습을 가능하게 함.
다양한 LLM과 불균형 데이터셋에서 DISCO의 우수한 성능을 실험적으로 검증.
다중 도메인 정렬 벤치마크에서 새로운 최첨단 성능 달성.
한계점:
DISCO의 성능 향상이 특정 데이터셋과 LLM에 국한될 가능성.
도메인과 난이도를 정의하는 기준의 주관성 및 일반화 가능성에 대한 추가 연구 필요.
더욱 복잡하고 다양한 도메인 및 불균형 유형에 대한 추가적인 실험과 검증 필요.
👍