GOPO: Policy Optimization using Ranked Rewards

Created by

Haebom

저자

Kyuseong Choi, Dwaipayan Saha, Woojeong Kim, Anish Agarwal, Raaz Dwivedi

💡 개요

본 논문은 인간 피드백 기반 강화학습(RLHF)에서 발생하는 보상 모델의 절대 보상 크기와 정책 최적화의 불일치 문제를 해결하기 위해, 보상의 크기가 아닌 순위만을 활용하는 새로운 정책 최적화 방법인 GOPO(Group Ordinal Policy Optimization)를 제안합니다. GOPO는 요약, 지시 따르기, 채팅 완성 등 검증 불가능한 보상 환경에서 기존 방법론 대비 더 높은 훈련/검증 보상 궤적, 향상된 LLM 평가 결과, 그리고 더 적은 훈련 단계로 유사한 품질의 정책 달성을 보여줍니다.

🔑 시사점 및 한계

•

검증 불가능한 보상 환경에서 보상 모델과 정책 최적화 간의 불일치로 인한 성능 저하 문제를 효과적으로 해결할 수 있습니다.

•

보상의 순위 정보만을 활용함으로써 훈련 효율성을 높이고 더 빠르게 고품질 정책을 학습할 수 있습니다.

•

다양한 작업 및 모델 크기에 걸쳐 일관된 성능 향상을 입증하여 일반화 가능성을 보여줍니다.

•

GOPO 방법론이 구체적으로 어떤 방식으로 보상의 순위 정보를 활용하여 최적화를 수행하는지에 대한 더 자세한 메커니즘 설명이 필요합니다.

PDF 보기

Made with Slashpage