ODRPO: Ordinal Decompositions of Discrete Rewards for Robust Policy Optimization

작성자

Haebom

카테고리

Empty

저자

Nirmal Patel, Fei Wang, Inderjit S. Dhillon

💡 개요

본 논문은 AI 피드백 기반 강화학습(RLAIF)에서 발생하는 비검증 가능한 도메인의 불확실한 이산 보상 문제를 해결하기 위해 ODRPO(Ordinal Decomposition for Robust Policy Optimization) 프레임워크를 제안합니다. ODRPO는 보상을 순차적인 이진 지표로 분해하여 평가 노이즈를 구조적으로 분리하고, 이를 통해 전역 학습 신호의 오염을 방지하며 훈련 효율성을 높입니다. Qwen2.5-7B 및 Qwen3-4B 모델에 대한 실험 결과, FACTS-grounding-v2 및 Alpaca-Evals에서 기존 방법 대비 최대 14.8% 향상된 성능을 달성했습니다.

🔑 시사점 및 한계

•

RLAIF 환경에서 발생하는 노이즈가 심한 이산 보상으로 인한 정책 최적화의 불안정성 문제를 효과적으로 해결할 수 있습니다.

•

보상을 순차적인 이진 지표로 분해하는 ODRPO는 계산 비용 증가 없이 학습 안정성과 성능을 개선하는 새로운 방법을 제시합니다.

•

본 연구는 다양한 LLM 및 RLAIF 응용 분야에 적용될 수 있는 확장 가능하고 견고한 프레임워크를 제공합니다.

•

향후 과제로는 더 복잡한 보상 구조나 다양한 평가 메트릭에 대한 ODRPO의 확장성 및 일반화 성능을 추가적으로 탐구할 필요가 있습니다.

PDF 보기

Made with Slashpage