RewardHarness: Self-Evolving Agentic Post-Training

작성자

Haebom

카테고리

Empty

저자

Yuxuan Zhang, Penghui Du, Bo Li, Cong Wei, Junwen Miao, Huaisong Zhang, Songcheng Cai, Yubo Wang, Dongfu Jiang, Yuyu Zhang, Ping Nie, Wenhu Chen, Changqian Yu, Kelsey R. Allen

💡 개요

본 논문은 지침 기반 이미지 편집 평가에서 인간의 미묘한 선호도를 반영하는 보상 모델의 필요성을 제기합니다. 기존 방식은 대규모 주석과 추가 모델 학습에 의존하여 데이터 효율성 격차를 야기하지만, 제안된 RewardHarness 프레임워크는 수백만 개의 비교 데이터 없이도 적은 수의 주석으로 인간의 선호도에 맞출 수 있는 자체 진화적 에이전트 기반 보상 모델을 제시합니다. 이 모델은 도구와 기술 라이브러리를 반복적으로 발전시켜, 이를 통해 추론 체인을 구축하고 선호도 판단을 생성하여 보상 모델을 자동으로 개선합니다.

🔑 시사점 및 한계

•

데이터 효율적인 학습: 적은 양의 인간 선호도 데이터만으로도 효과적인 보상 모델 학습이 가능함을 입증했습니다.

•

에이전트 기반의 추론: 도구와 기술을 활용한 에이전트의 추론 과정을 통해 보상 모델의 투명성과 해석 가능성을 높였습니다.

•

자동화된 보상 모델 개선: 추가적인 인간 개입 없이도 보상 모델 자체를 지속적으로 개선할 수 있는 자동화 메커니즘을 제시했습니다.

•

성능의 일반화: 제안된 방법론이 다양한 이미지 편집 평가 벤치마크에서 기존 모델을 능가하는 성능을 보였지만, 특정 도메인이나 복잡한 편집 작업에서의 일반화 성능은 추가 검증이 필요합니다.

PDF 보기

Made with Slashpage