Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Pei Yang, Ke Zhang, Ji Wang, Xiao Chen, Yuxin Tang, Eric Yang, Lynn Ai, Bill Shi

개요

CRM (Multi-Agent Collaborative Reward Model)은 RLHF의 견고성과 해석 가능성을 향상시키기 위해 단일 블랙박스 보상 모델을 전문 평가자들의 협력적인 팀으로 대체하는 프레임워크입니다. CRM은 선호도 평가를 각자 부분 신호를 생성하는 도메인별 에이전트로 분해하고, 랭커 기반 및 임베딩 유사성 보상과 같은 글로벌 평가자를 함께 활용합니다. 중앙 집중식 집계기는 각 타임스텝마다 이러한 신호를 융합하여 단계별 정확성, 다중 에이전트 합의, 반복 페널티와 같은 요소를 균형 있게 조정하여 표준 RL 파이프라인과 호환되는 단일 훈련 보상을 생성합니다. 정책은 장점 기반 업데이트를 통해 최적화되고, 가치 모델은 집계된 보상에 회귀하여, 평가자를 훈련하는 데 사용된 것 외에 추가적인 인간 주석 없이 다각적 관점의 보상 형성을 가능하게 합니다. CRM의 훈련과 평가를 지원하기 위해 CRM의 협업 구조에 맞춰 설계된 rewardBench라는 벤치마크 및 훈련 스위트를 도입했습니다. CRM과 rewardBench는 더욱 투명한 보상 모델링과 더욱 안정적인 최적화를 위한 실용적이고 모듈식 경로를 제공합니다.

시사점, 한계점

시사점:
RLHF의 해석 가능성과 견고성 향상.
다양한 선호도 차원(사실성, 유용성, 안전성 등)을 효과적으로 최적화.
전문가 평가자의 협업을 통해 보상 모델의 투명성 증대.
추가적인 인간 주석 없이도 다각적 관점의 보상 형성이 가능.
rewardBench를 통한 훈련 및 평가 지원.
한계점:
구체적인 한계점은 논문 요약에서 명시되지 않음. (논문 전체 내용 확인 필요)
👍