Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Self-Rewarding Language Models

Created by
  • Haebom

저자

Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston

개요

본 논문은 초인적 에이전트를 달성하기 위해서는 초인적인 피드백이 필요하다는 가정 하에, 언어 모델 자체를 판단자로 활용하여 자체 보상을 제공하는 자기 보상 언어 모델(Self-Rewarding Language Models)을 연구합니다. 기존의 인간 선호도를 기반으로 보상 모델을 학습하는 방식과 달리, LLM-as-a-Judge 프롬프팅을 통해 언어 모델이 스스로 보상을 생성하고, 반복적인 DPO 훈련을 통해 지시사항 따르기 능력과 자체 보상 생성 능력을 동시에 향상시킵니다. Llama 2 70B를 세 번의 반복 학습한 결과, AlpacaEval 2.0 리더보드에서 Claude 2, Gemini Pro, GPT-4 0613 등 여러 기존 시스템을 능가하는 성능을 달성했습니다.

시사점, 한계점

시사점:
LLM이 자체 보상을 생성하여 학습하는 새로운 접근 방식을 제시합니다.
인간의 피드백에 의존하지 않고 모델의 성능을 지속적으로 향상시킬 가능성을 보여줍니다.
AlpacaEval 2.0 리더보드 상위권 성능 달성을 통해 실질적인 효과를 입증했습니다.
모델이 지시사항 따르기 능력과 자체 보상 생성 능력을 동시에 향상시킬 수 있음을 보여줍니다.
한계점:
아직 탐구해야 할 부분이 많이 남아있습니다.
자기 보상 메커니즘의 안정성 및 일반화 성능에 대한 추가적인 연구가 필요합니다.
👍