Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning

Created by

Haebom

저자

Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou, Jiuxin Cao

💡 개요

본 논문은 강화학습(RL)이 장문 맥락 추론에서 발생하는 희소한 결과 보상 문제를 해결하기 위해 증거 기반 정책 최적화(EAPO)를 제안합니다. EAPO는 트리 구조 증거 샘플링을 통해 장문 맥락 추론에서 정확한 증거 추출이 핵심 병목임을 밝히고, 그룹 상대 증거 보상(Group-Relative Evidence Reward)을 통해 증거 품질을 개선하는 밀집된 과정 감독을 제공합니다. 또한, 적응형 보상-정책 공동 진화(Adaptive Reward-Policy Co-Evolution) 메커니즘을 통해 훈련 전반에 걸쳐 보상 모델을 지속적으로 개선하여 정확한 감독을 유지합니다.

🔑 시사점 및 한계

•

장문 맥락 추론에서 '바늘 찾기'와 같은 증거 검색의 중요성을 강조하고, 이를 감독하기 위한 구체적인 보상 설계 방법론을 제시합니다.

•

보상 모델과 정책을 반복적으로 개선하는 공동 진화 메커니즘을 통해 RL 훈련의 효율성과 정확성을 높이는 새로운 접근 방식을 제시합니다.

•

제안된 EAPO 방법론이 다양한 벤치마크에서 최신 기술(SOTA) 대비 장문 맥락 추론 성능을 유의미하게 향상시켰음을 입증합니다.

•

보상 모델의 학습 안정성 및 외부 증거 소스에 대한 일반화 성능에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage