Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning

Created by
  • Haebom

저자

Xuerui Su, Shufang Xie, Guoqing Liu, Yingce Xia, Renqian Luo, Peiran Jin, Zhiming Ma, Yue Wang, Zun Wang, Yuting Liu

개요

본 논문은 대규모 언어 모델(LLM)의 인간 정렬(HA) 및 추론 능력 향상을 위해 강화 학습을 활용하는 최근 연구 동향을 소개합니다. 기존의 보상 기반 최적화 알고리즘(PPO, GRPO)은 추론 과제에서 우수한 성능을 보이지만 보상 해킹에 취약하며, 선호도 기반 알고리즘(DPO)은 인간 정렬에 효과적이나 추론 과제에서는 성능이 떨어지는 한계를 지닙니다. 이러한 문제를 해결하기 위해 본 논문은 규칙 기반 최적화와 선호도 기반 최적화를 통합한 새로운 알고리즘, 신뢰 영역 선호도 근사(TRPA)를 제안합니다. TRPA는 사전 정의된 규칙을 사용하여 선호도 수준을 구성하고, 이를 바탕으로 선호도 쌍을 형성하여 이론적으로 단조 증가하는 성능 향상을 보장하는 새로운 RL 훈련 최적화 알고리즘을 활용합니다. 실험 결과, TRPA는 추론 과제에서 경쟁력 있는 성능을 달성하고 강력한 안정성을 보이는 것으로 나타났습니다. 소스 코드는 깃허브에서 공개됩니다.

시사점, 한계점

시사점:
규칙 기반 최적화와 선호도 기반 최적화를 결합하여 보상 해킹 문제를 해결하고 추론 과제 성능을 향상시키는 새로운 알고리즘 TRPA를 제시.
이론적으로 단조 증가하는 성능 향상을 보장하는 새로운 최적화 알고리즘을 제안.
TRPA가 추론 과제에서 경쟁력 있는 성능과 강력한 안정성을 보임을 실험적으로 증명.
소스 코드 공개를 통해 재현성 및 확장성 확보.
한계점:
TRPA 알고리즘의 일반화 성능 및 다양한 과제에 대한 적용 가능성에 대한 추가적인 연구가 필요.
사전 정의된 규칙의 설계 및 최적화에 대한 연구가 더 필요하며, 규칙 설계의 주관성이 결과에 영향을 미칠 수 있음.
다른 선호도 기반 알고리즘과의 비교 분석이 더욱 심도 있게 이루어져야 함.
👍