Alternating Reinforcement Learning with Contextual Rubric Rewards: Beyond the Scalarization Strategy

작성자

Haebom

카테고리

Empty

저자

Guangchen Lan, Lian Xiong, Xin Zhou, Hejie Cui, Yuwei Zhang, Mao Li, Zhenyu Shi, Besnik Fetahu, Lihong Li, Xian Li

💡 개요

본 연구는 기존 강화학습에서 단일 스칼라 보상 대신 다차원적이고 구조화된 루브릭 기반 평가를 사용하는 RLRR 프레임워크의 한계를 극복하고자 합니다. 기존 방식이 고정된 가중치로 벡터 보상을 선형 압축하는 것과 달리, 제안된 ARL-RR은 각 시맨틱 루브릭 메타 클래스를 순차적으로 최적화하여 고정된 스칼라화를 제거합니다. 이를 통해 모델 성능과 훈련 효율성을 향상시켰으며, 특히 HealthBench 데이터셋 실험에서 우수한 결과를 보여주었습니다.

🔑 시사점 및 한계

•

기존 RLRR의 고정 가중치 스칼라화 방식이 보상 차원 간의 상관관계를 포착하지 못하고 인공적인 점수 설계에 민감하다는 문제점을 해결합니다.

•

각 메타 클래스를 순차적으로 최적화하는 ARL-RR 방식은 보상 집계 시 분산 축소 효과를 유도하여 성능 향상에 기여하며, 동적으로 다음 메타 클래스를 선택하는 절차를 통해 중요한 목표에 집중하게 합니다.

•

다양한 모델 규모에서 스칼라화된 방법보다 uniformly 뛰어난 성능을 보였으며, 훈련 효율성 또한 개선되었습니다.

•

HealthBench 데이터셋 외의 다른 도메인에서의 일반화 가능성에 대한 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage