Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EFRame: Deeper Reasoning via Exploration-Filter-Replay Reinforcement Learning Framework

Created by
  • Haebom

저자

Chen Wang, Lai Wei, Yanzhi Zhang, Chenyang Shao, Zedong Dan, Weiran Huang, Yuzhi Zhang, Yue Wang

개요

강화 학습(RL)의 발전을 활용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키려는 연구. Proximal Policy Optimization (PPO)의 경량화된 변형인 Group Relative Policy Optimization (GRPO)는 효율성이 뛰어나지만, 탐험의 한계와 훈련의 불안정성으로 인해 복잡한 추론 작업에 효과가 제한됨. 이러한 문제를 해결하기 위해, 추가적인 롤아웃(rollout)을 통한 더 깊고 목표 지향적인 탐험, 저품질 샘플 제거를 통한 기울기 안정화 및 훈련 가속화, 희귀하지만 유익한 궤적의 증폭을 위한 경험 재생(experience replay)을 결합한 Exploration-Filter-Replay (EFRame) 프레임워크를 제안함. EFRame은 탐험, 효율성, 안정성의 균형을 이루는 원리적인 훈련 주기를 구축하며, 다양한 추론 벤치마크에서 GRPO 대비 37.9%의 상대적 향상을 포함한 일관된 성능 향상을 보임. 또한 EFRame은 세분화된 샘플 분류와 정밀한 엔트로피 제어를 지원하며, LLM의 심층 추론 발전을 위한 강력한 솔루션임을 강조함.

시사점, 한계점

시사점:
EFRame은 GRPO의 탐험, 효율성, 안정성 문제를 해결하여 LLM의 추론 능력을 향상시킴.
Geometry3K 벤치마크에서 GRPO 대비 37.9%의 성능 향상을 보임.
세분화된 샘플 분류 및 정밀한 엔트로피 제어를 지원.
LLM의 심층 추론 발전을 위한 강력한 솔루션 제공.
한계점:
구체적인 한계점은 논문 요약에서 명시되지 않음. (예: 다른 RL 알고리즘과의 비교, 특정 작업에서의 성능 저하 등)
👍