Chenghua Huang, Zhizhen Fan, Lu Wang, Fangkai Yang, Pu Zhao, Zeqi Lin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
개요
본 논문은 인간 피드백으로부터 강화 학습(RLHF)에서 신뢰할 수 있는 보상 모델(RM)을 훈련하는 데 드는 높은 비용과 편향 문제를 해결하기 위해 자기 진화적 보상 학습(SER)을 제안합니다. SER은 RM이 추가적인 훈련 데이터를 생성하여 반복적으로 자신을 개선하는 새로운 접근 방식입니다. Mistral 및 Llama 3과 같은 모델을 사용하여 HH-RLHF 및 UltraFeedback과 같은 여러 데이터 세트에서 광범위한 실험을 수행하여 SER을 다양한 기준과 비교한 결과, 제한된 인간 주석 데이터만으로도 자기 피드백으로부터 학습하여 RM 성능을 강화하고 대규모 언어 모델(LLM)의 기능을 향상시킬 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
제한된 인간 주석 데이터로도 RM 성능을 효과적으로 향상시킬 수 있는 새로운 방법(SER)을 제시.