Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

작성자

Haebom

카테고리

비어 있음

저자

Chanuk Lee, Sangwoo Park, Minki Kang, Sung Ju Hwang

💡 개요

본 논문은 강화학습 기반 검증 보상(RLVR)에서 효과적인 탐색 전략 부재라는 문제를 해결하고자 합니다. 제안하는 NudgeRL 프레임워크는 '전략 너징(Strategy Nudging)' 기법을 통해 별도의 고비용 지도 없이도 다양한 추론 경로를 탐색하며, 이를 위해 보상 신호를 분해하고 발견된 행동을 기본 정책으로 이전하는 통합 목표 함수를 사용합니다. 실험 결과, NudgeRL은 기존 방법론보다 훨씬 적은 롤아웃 예산으로도 뛰어난 성능을 보였습니다.

🔑 시사점 및 한계

•

RLVR에서 계산 비용이 많이 드는 무차별적인 롤아웃 확장이나 특권 정보를 활용하는 기존 방식 대신, 효율적이고 확장 가능한 탐색 전략으로 '전략 너징'이 효과적임을 입증했습니다.

•

경량화된 전략 수준 컨텍스트를 활용하여 비용 효율적으로 다양한 추론 궤적을 유도할 수 있습니다.

•

제안된 통합 목표 함수는 복잡한 보상 신호를 효과적으로 활용하여 기본 정책의 성능을 향상시키는 데 기여합니다.

•

본 연구는 수학 능력과 같은 복잡한 추론 작업에서 RLVR의 효과를 크게 향상시킬 수 있는 새로운 탐색 프레임워크를 제시합니다.

•

향후 연구에서는 더 복잡하고 다양한 작업에 NudgeRL을 적용하거나, 전략 너징을 위한 컨텍스트를 자동 학습하는 방법에 대한 탐구가 필요할 수 있습니다.

PDF 보기

Slashpage로 제작됨