ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training

Created by

Haebom

저자

Yu Liang, Liangxin Liu, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Daiting Shi

💡 개요

대규모 언어 모델(LLM)을 인간 선호도에 맞추기 위한 생성 보상 모델(GRM)은 높은 표현력과 유연성을 제공하지만, 비싼 인간 주석 데이터와 불안정한 자기 학습의 한계를 가집니다. 본 논문은 이러한 문제를 해결하기 위해 인간 주석 없이도 효과적이고 안정적인 GRM 훈련을 가능하게 하는 ConsistRM 프레임워크를 제안합니다. ConsistRM은 시간적 일관성을 갖는 신뢰할 수 있는 의사 레이블을 생성하는 '일관성 인식 답변 보상'과 여러 비평 간의 의미론적 일관성을 평가하여 미세하고 차별화된 보상을 할당하는 '일관성 인식 비평 보상'을 도입합니다.

🔑 시사점 및 한계

•

인간 주석 없이도 GRM 훈련의 안정성과 성능을 향상시킬 수 있는 새로운 자기 학습 프레임워크를 제시합니다.

•

제안된 '일관성 인식' 보상 메커니즘은 출력 일관성을 높이고 입력 순서로 인한 위치 편향을 완화하는 데 효과적입니다.

•

제안된 방법론은 기존 자기 학습 기법의 불안정성 및 보상 해킹 문제를 해결할 잠재력을 가집니다.

•

향후 연구에서는 다양한 LLM 아키텍처 및 더 복잡한 인간 선호도 데이터셋에 대한 ConsistRM의 일반화 성능을 평가할 필요가 있습니다.

PDF 보기

Made with Slashpage