Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GRAM: A Generative Foundation Reward Model for Reward Generalization

Created by
  • Haebom

저자

Chenglong Wang, Yang Gan, Yifu Huo, Yongyu Mu, Qiaozhi He, Murun Yang, Bei Li, Tong Xiao, Chunliang Zhang, Tongran Liu, Jingbo Zhu

개요

본 논문은 대규모 언어 모델(LLM) 정렬에서 기존의 판별적 보상 모델 대신 생성적 보상 모델을 제안합니다. 기존의 보상 모델은 인간 선호도 데이터에만 의존하는 반면, 본 논문에서는 비지도 학습과 지도 학습을 결합하여 생성적 보상 모델을 학습시킵니다. 먼저 대규모 비지도 학습으로 사전 훈련된 후, 지도 학습을 통해 미세 조정되는 이 모델은 레이블 스무딩 기법을 통해 규제된 쌍대 순위 손실을 최적화하는 것으로 나타났습니다. 이를 통해 생성 모델과 판별 모델을 동일한 훈련 목표 아래 연결하는 새로운 관점을 제시합니다. 결과적으로 생성된 기초 보상 모델은 추가적인 미세 조정이 거의 필요 없이 다양한 작업에 적용될 수 있으며, 응답 순위 지정, 인간 피드백으로부터의 강화 학습, 미세 조정을 통한 작업 적응 등 여러 작업에서 기존 모델보다 성능이 크게 향상됨을 실험을 통해 보여줍니다.

시사점, 한계점

시사점:
대규모 언어 모델 정렬을 위한 새로운 생성적 보상 모델을 제시합니다.
비지도 및 지도 학습을 결합하여 데이터 효율성을 높였습니다.
레이블 스무딩을 통해 규제된 쌍대 순위 손실 최적화를 달성하였습니다.
생성 모델과 판별 모델을 통합하는 새로운 관점을 제공합니다.
다양한 작업에서 기존 모델보다 우수한 성능을 보입니다.
추가적인 미세 조정이 거의 필요 없는 기초 보상 모델을 제공합니다.
한계점:
본 논문에서 제시된 방법의 한계점에 대한 구체적인 언급이 없습니다. 추가적인 분석이 필요합니다.
특정 데이터셋이나 작업에 대한 과적합 가능성에 대한 검토가 필요합니다.
모델의 확장성 및 일반화 성능에 대한 추가적인 연구가 필요합니다.
👍