# Alternating Reinforcement Learning with Contextual Rubric Rewards: Beyond the Scalarization Strategy

### 저자

Guangchen Lan, Lian Xiong, Xin Zhou, Hejie Cui, Yuwei Zhang, Mao Li, Zhenyu Shi, Besnik Fetahu, Lihong Li, Xian Li

### 💡 개요

본 연구는 기존 강화학습에서 단일 스칼라 보상 대신 다차원적이고 구조화된 루브릭 기반 평가를 사용하는 RLRR 프레임워크의 한계를 극복하고자 합니다. 기존 방식이 고정된 가중치로 벡터 보상을 선형 압축하는 것과 달리, 제안된 ARL-RR은 각 시맨틱 루브릭 메타 클래스를 순차적으로 최적화하여 고정된 스칼라화를 제거합니다. 이를 통해 모델 성능과 훈련 효율성을 향상시켰으며, 특히 HealthBench 데이터셋 실험에서 우수한 결과를 보여주었습니다.

### 🔑 시사점 및 한계

- 기존 RLRR의 고정 가중치 스칼라화 방식이 보상 차원 간의 상관관계를 포착하지 못하고 인공적인 점수 설계에 민감하다는 문제점을 해결합니다.

- 각 메타 클래스를 순차적으로 최적화하는 ARL-RR 방식은 보상 집계 시 분산 축소 효과를 유도하여 성능 향상에 기여하며, 동적으로 다음 메타 클래스를 선택하는 절차를 통해 중요한 목표에 집중하게 합니다.

- 다양한 모델 규모에서 스칼라화된 방법보다 uniformly 뛰어난 성능을 보였으며, 훈련 효율성 또한 개선되었습니다.

- HealthBench 데이터셋 외의 다른 도메인에서의 일반화 가능성에 대한 추가적인 검증이 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2603.15646)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).