[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning

Created by
  • Haebom

저자

Ziru Liu, Cheng Gong, Xinyu Fu, Yaofang Liu, Ran Chen, Shoubo Hu, Suiyun Zhang, Rui Liu, Qingfu Zhang, Dandan Tu

개요

본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력 향상을 위한 강화 학습 방법인 검증 가능한 보상을 사용한 강화 학습(RLVR)의 한계점을 해결하기 위해, 새로운 어려움 인식 강화 학습 프레임워크인 안내 하이브리드 정책 최적화(GHPO)를 제시합니다. GHPO는 적응적 프롬프트 개선을 통해 작업 난이도를 동적으로 조절하여 모델의 현재 능력을 넘어서는 문제에는 직접 모방 학습을, 관리 가능한 문제에는 탐색 기반 강화 학습을 적용함으로써 효율적인 학습 과정을 만듭니다. 6가지 수학 벤치마크에서 기존 강화 학습 및 커리큘럼 학습 기법 대비 평균 5% 향상된 성능을 보이며, 학습 안정성과 최종 추론 성능 모두 향상됨을 실험적으로 입증합니다.

시사점, 한계점

시사점:
적응적 프롬프트 개선을 통한 동적 난이도 조절이 LLM의 추론 능력 향상에 효과적임을 보임.
GHPO가 기존의 강화 학습 및 커리큘럼 학습 방법보다 학습 안정성과 성능 면에서 우수함을 증명.
소규모 LLM의 효율적인 학습을 위한 새로운 접근 방식 제시.
수학 문제 해결 능력 향상에 실질적인 성능 향상을 보여줌.
한계점:
제시된 벤치마크가 수학 문제에 국한되어 다른 도메인으로의 일반화 가능성에 대한 추가 연구 필요.
GHPO의 적응적 프롬프트 개선 전략의 일반적인 적용 가능성 및 한계에 대한 추가적인 분석 필요.
다양한 크기의 LLM에 대한 실험 결과가 부족함.
GHPO의 계산 비용 및 효율성에 대한 더 자세한 분석 필요.
👍