본 논문은 대규모 언어 모델(LLM) 정렬에서 기존의 판별적 보상 모델 대신 생성적 보상 모델을 제안합니다. 기존의 보상 모델은 인간 선호도 데이터에만 의존하는 반면, 본 논문에서는 비지도 학습과 지도 학습을 결합하여 생성적 보상 모델을 학습시킵니다. 먼저 대규모 비지도 학습으로 사전 훈련된 후, 지도 학습을 통해 미세 조정되는 이 모델은 레이블 스무딩 기법을 통해 규제된 쌍대 순위 손실을 최적화하는 것으로 나타났습니다. 이를 통해 생성 모델과 판별 모델을 동일한 훈련 목표 아래 연결하는 새로운 관점을 제시합니다. 결과적으로 생성된 기초 보상 모델은 추가적인 미세 조정이 거의 필요 없이 다양한 작업에 적용될 수 있으며, 응답 순위 지정, 인간 피드백으로부터의 강화 학습, 미세 조정을 통한 작업 적응 등 여러 작업에서 기존 모델보다 성능이 크게 향상됨을 실험을 통해 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델 정렬을 위한 새로운 생성적 보상 모델을 제시합니다.
◦
비지도 및 지도 학습을 결합하여 데이터 효율성을 높였습니다.
◦
레이블 스무딩을 통해 규제된 쌍대 순위 손실 최적화를 달성하였습니다.
◦
생성 모델과 판별 모델을 통합하는 새로운 관점을 제공합니다.
◦
다양한 작업에서 기존 모델보다 우수한 성능을 보입니다.
◦
추가적인 미세 조정이 거의 필요 없는 기초 보상 모델을 제공합니다.
•
한계점:
◦
본 논문에서 제시된 방법의 한계점에 대한 구체적인 언급이 없습니다. 추가적인 분석이 필요합니다.