Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 요약본 공유 시 출처만 명기하면 됩니다.
This service is supported by Google Gemini.
Share

Training Large Language Models to Reason via EM Policy Gradient

Created by
  • Haebom
Category
Empty

저자

Tianbing Xu

개요

본 논문은 대규모 강화 학습을 통해 강력한 추론 능력과 문제 해결 능력을 갖춘 기초 모델들의 추론 능력 향상을 위한 새로운 오프-폴리시 강화 학습 알고리즘인 EM Policy Gradient를 제안합니다. EM Policy Gradient는 추론 과정을 기대-최대화(EM) 최적화 문제로 구성하여 다양한 추론 경로를 샘플링하고 보상 기반 미세 조정을 반복적으로 수행합니다. 기존의 PPO나 GRPO와 달리 복잡한 중요도 가중치나 휴리스틱 클리핑 없이 단순하고 원리에 입각한 방법을 제시하며, GSM8K와 MATH (HARD) 데이터셋에서 기존 최고 성능과 비슷하거나 약간 뛰어넘는 성능을 보입니다. 또한, 본 알고리즘으로 미세 조정된 모델은 하위 문제 분해, 자기 검증, 백트래킹과 같은 인지적 행동을 보이며, LLM 추론의 해석성과 강건성을 향상시킬 가능성을 보여줍니다.

시사점, 한계점

시사점:
EM Policy Gradient는 기존의 오프-폴리시 강화 학습 알고리즘보다 단순하고 확장성이 뛰어나며, LLM의 추론 능력 향상에 효과적입니다.
LLM의 추론 과정에서 하위 문제 분해, 자기 검증, 백트래킹과 같은 인지적 행동을 유도하여 해석성과 강건성을 높일 수 있습니다.
GSM8K와 MATH (HARD) 데이터셋에서 SOTA 성능을 달성하거나 능가하는 성능을 보여줍니다.
한계점:
본 논문에서는 특정 데이터셋에 대한 실험 결과만 제시하고 있으며, 다른 데이터셋이나 작업에 대한 일반화 성능은 추가 연구가 필요합니다.
EM Policy Gradient의 성능 향상이 단순히 알고리즘의 개선 때문인지, 또는 모델 크기나 데이터의 양과 같은 다른 요인에 의한 것인지에 대한 추가 분석이 필요합니다.
실제 응용 분야에서의 효용성에 대한 추가적인 검증이 필요합니다.
👍