CRM (Multi-Agent Collaborative Reward Model)은 RLHF의 견고성과 해석 가능성을 향상시키기 위해 단일 블랙박스 보상 모델을 전문 평가자들의 협력적인 팀으로 대체하는 프레임워크입니다. CRM은 선호도 평가를 각자 부분 신호를 생성하는 도메인별 에이전트로 분해하고, 랭커 기반 및 임베딩 유사성 보상과 같은 글로벌 평가자를 함께 활용합니다. 중앙 집중식 집계기는 각 타임스텝마다 이러한 신호를 융합하여 단계별 정확성, 다중 에이전트 합의, 반복 페널티와 같은 요소를 균형 있게 조정하여 표준 RL 파이프라인과 호환되는 단일 훈련 보상을 생성합니다. 정책은 장점 기반 업데이트를 통해 최적화되고, 가치 모델은 집계된 보상에 회귀하여, 평가자를 훈련하는 데 사용된 것 외에 추가적인 인간 주석 없이 다각적 관점의 보상 형성을 가능하게 합니다. CRM의 훈련과 평가를 지원하기 위해 CRM의 협업 구조에 맞춰 설계된 rewardBench라는 벤치마크 및 훈련 스위트를 도입했습니다. CRM과 rewardBench는 더욱 투명한 보상 모델링과 더욱 안정적인 최적화를 위한 실용적이고 모듈식 경로를 제공합니다.