Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration

Created by
  • Haebom

저자

Xiaoyang Yuan, Yujuan Ding, Yi Bin, Wenqi Shao, Jinyu Cai, Jingkuan Song, Yang Yang, Heng Tao Shen

개요

강화 학습으로 언어 모델의 추론 능력을 향상시키는 RLVR(Reinforcement Learning with Verifiable Rewards)의 연구에서, 자기 탐색이나 단일 오프라인 교사에 의존하는 기존 방식의 한계를 극복하고자 합니다. 본 논문에서는 여러 능숙한 교사 모델로부터 학생 모델이 정답을 생성하지 못할 때만 지침을 받는 "수요 기반 지침" 접근 방식을 도입한 AMPO(Adaptive Multi-Guidance Policy Optimization) 프레임워크를 제안합니다. AMPO는 탐색을 확장하고 자기 발견의 가치를 보존하며, 학생 모델이 이해할 가능성이 높은 추론 경로에서 학습하도록 유도하여 광범위한 탐색과 효과적인 활용 사이의 균형을 유지합니다.

시사점, 한계점

AMPO는 수학적 추론 과제에서 4.3%, 외부 분포 과제에서 12.2%의 성능 향상을 보이며, 강력한 기준선(GRPO)보다 우수한 성능을 보였습니다.
Pass@k 성능을 크게 향상시키고 더욱 다양한 탐색을 가능하게 했습니다.
4개의 동등한 크기의 교사 모델을 사용한 AMPO는 더 강력한 단일 교사 모델(예: DeepSeek-R1)을 사용한 접근 방식과 유사한 결과를 달성했습니다.
제안하는 방법은 우수한 추론 능력과 일반화 능력을 위한 더욱 효율적이고 확장 가능한 경로를 제시합니다.
본 논문의 한계점은 구체적으로 언급되지 않았습니다. (논문 요약에 포함되지 않음)
👍