GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning
Created by
Haebom
저자
Ziru Liu, Cheng Gong, Xinyu Fu, Yaofang Liu, Ran Chen, Shoubo Hu, Suiyun Zhang, Rui Liu, Qingfu Zhang, Dandan Tu
개요
본 논문은 대규모 언어 모델(LLMs)의 복잡한 추론 능력 향상을 위한 강화 학습 방법으로, 검증 가능한 보상을 사용하는 강화 학습(RLVR)의 한계를 극복하기 위해 제안된 새로운 프레임워크인 Guided Hybrid Policy Optimization (GHPO)를 소개합니다. 기존의 온-폴리시 강화 학습 방법은 훈련 데이터의 복잡성이 모델의 능력을 넘어서는 경우 희소한 보상 신호로 인해 학습이 지체되는 문제가 있습니다. GHPO는 적응적 프롬프트 개선을 통해 과제 난이도를 동적으로 조절하여 이 문제를 해결합니다. 모델의 현재 능력을 넘어서는 문제에는 직접 모방 학습을, 관리 가능한 문제에는 탐색 기반 강화 학습을 사용하여 효율적인 학습 과정을 만듭니다. 6가지 수학 벤치마크 실험 결과, GHPO는 기존 방법보다 평균 5% 향상된 성능을 보였으며, 훈련 안정성과 최종 추론 성능을 모두 향상시켰습니다.
시사점, 한계점
•
시사점:
◦
적응적 프롬프트 개선을 통한 난이도 조절은 강화 학습의 훈련 안정성과 효율성을 크게 향상시킬 수 있음을 보여줍니다.
◦
GHPO는 온-폴리시 강화 학습과 커리큘럼 학습의 한계를 극복하고, 소규모 LLM에도 효과적으로 적용 가능한 방법을 제시합니다.
◦
복잡한 추론 능력을 요구하는 과제에서 LLM의 성능을 향상시키는 데 효과적인 방법임을 실험적으로 증명했습니다.
•
한계점:
◦
제시된 6가지 수학 벤치마크 외 다른 도메인이나 과제 유형에 대한 일반화 성능은 추가 연구가 필요합니다.
◦
적응적 프롬프트 개선 전략의 최적화에 대한 추가 연구가 필요하며, 프롬프트 생성 과정의 복잡성이 시스템의 전반적인 효율성에 미치는 영향을 고려해야 합니다.
◦
GHPO의 성능 향상이 특정 벤치마크나 하이퍼파라미터 설정에 의존하는 정도에 대한 추가 분석이 필요합니다.