Sign In

Self-Evolved Reward Learning for LLMs

Created by
  • Haebom
Category
Empty

저자

Chenghua Huang, Zhizhen Fan, Lu Wang, Fangkai Yang, Pu Zhao, Zeqi Lin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

개요

본 논문은 인간 피드백으로부터 강화 학습(RLHF)에서 신뢰할 수 있는 보상 모델(RM)을 훈련하는 데 드는 높은 비용과 편향 문제를 해결하기 위해 자기 진화적 보상 학습(SER)을 제안합니다. SER은 RM이 추가적인 훈련 데이터를 생성하여 반복적으로 자신을 개선하는 새로운 접근 방식입니다. Mistral 및 Llama 3과 같은 모델을 사용하여 HH-RLHF 및 UltraFeedback과 같은 여러 데이터 세트에서 광범위한 실험을 수행하여 SER을 다양한 기준과 비교한 결과, 제한된 인간 주석 데이터만으로도 자기 피드백으로부터 학습하여 RM 성능을 강화하고 대규모 언어 모델(LLM)의 기능을 향상시킬 수 있음을 보여줍니다.

시사점, 한계점

시사점:
제한된 인간 주석 데이터로도 RM 성능을 효과적으로 향상시킬 수 있는 새로운 방법(SER)을 제시.
LLM의 성능 향상에 기여하는 효율적인 RLHF 전략 제시.
인간의 개입을 최소화하여 RLHF의 비용과 시간을 절감할 가능성 제시.
한계점:
SER의 장기적인 성능 및 안정성에 대한 추가적인 연구 필요.
자기 피드백 학습 과정에서 발생할 수 있는 편향 문제에 대한 심층적인 분석 필요.
다양한 LLM과 데이터셋에 대한 일반화 성능 검증 필요.
👍