Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ESPO: Entropy Importance Sampling Policy Optimization

Created by
  • Haebom
Category
Empty

저자

Yuepeng Sheng, Yuwei Huang, Shuman Liu, Haibo Zhang, Anxiang Zeng

개요

대규모 언어 모델(LLM) 강화 학습에서 그룹 기반 정책 최적화 프레임워크(GRPO, GSPO 등)가 안정적인 파인튜닝에 사용되지만, 최적화 세분성과 훈련 안정성 간의 트레이드오프가 존재합니다. GSPO는 시퀀스 수준 최적화를 통해 견고성을 높이지만, 시퀀스를 획일적으로 처리하여 효율성이 떨어지고, 유효한 훈련 샘플을 무차별적으로 폐기하며(경사 활용 부족), 중요한 추론 단계의 기여도를 제대로 반영하지 못합니다. 본 연구에서는 ESPO(Entropy Importance Sampling Policy Optimization)를 제안하여 미세한 제어와 훈련 안정성을 동시에 확보합니다. ESPO는 예측 엔트로피를 기반으로 시퀀스를 그룹으로 분할하여 (1) 엔트로피 기반 중요도 샘플링을 통해 시퀀스 내 이질성을 포착하고, (2) 엔트로피 적응형 클리핑을 통해 모델 불확실성에 따라 신뢰 영역을 동적으로 할당합니다. 수학적 추론 벤치마크 실험 결과, ESPO는 수렴 속도를 높일 뿐만 아니라, 특히 HMMT 벤치마크의 정확도를 4.4%에서 13.13%로 향상시키는 등, 최첨단 성능을 달성했습니다.

시사점, 한계점

시사점:
ESPO는 LLM 강화 학습의 안정성과 효율성 간의 트레이드오프를 해결하는 새로운 프레임워크를 제시합니다.
엔트로피 기반의 중요도 샘플링과 적응형 클리핑을 통해 모델의 불확실성을 효과적으로 활용합니다.
수학적 추론 벤치마크에서 기존 SOTA를 뛰어넘는 성능을 달성했습니다.
한계점:
본 연구의 결과는 수학적 추론 벤치마크에 국한되어 있으며, 다른 도메인으로의 일반화 가능성은 추가 연구가 필요합니다.
ESPO의 계산 복잡성과 효율성에 대한 추가적인 분석이 필요합니다.
모델의 하이퍼파라미터에 따른 성능 변화에 대한 연구가 필요합니다.
👍