Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

Created by

Haebom

저자

Kirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel

💡 개요

기존 GRPO 방법론은 여러 목표를 가진 구조화된 생성 태스크에서 각 토큰에 단일 스칼라 어드밴티지를 할당하여 목표 간 간섭을 유발했습니다. 본 논문은 각 목표에 대한 개별적인 어드밴티지를 할당하고 해당 텍스트 블록에만 적용하는 Blockwise Advantage Estimation을 제안하여 이러한 문제를 해결합니다. 제안 방법은 Reward Interference를 완화하고, 추가적인 Rollout 없이 순차적 목표 최적화를 위한 모듈식 접근 방식을 제공합니다.

🔑 시사점 및 한계

•

다중 목표 강화학습에서 각 목표별 독립적인 어드밴티지 추정을 통해 목표 간 간섭 문제를 효과적으로 완화할 수 있습니다.

•

Outcome-Conditioned Baseline은 비싼 중첩 Rollout 없이도 중간 상태 가치를 근사하여 계산 효율성을 높입니다.

•

제안된 방법은 복잡한 Reward Engineering 없이도 성능을 유지하며, Confidence-Weighted Ensembling의 테스트 시간 이득을 보존합니다.

•

후반 블록의 어드밴티지 추정 시 샘플링된 접두사에 따른 보상이 조건화되는 문제는 여전히 도전 과제로 남아있으며, 이에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage