본 논문은 초인적 에이전트를 달성하기 위해서는 초인적인 피드백이 필요하다는 가정 하에, 언어 모델 자체를 판단자로 활용하여 자체 보상을 제공하는 자기 보상 언어 모델(Self-Rewarding Language Models)을 연구합니다. 기존의 인간 선호도를 기반으로 보상 모델을 학습하는 방식과 달리, LLM-as-a-Judge 프롬프팅을 통해 언어 모델이 스스로 보상을 생성하고, 반복적인 DPO 훈련을 통해 지시사항 따르기 능력과 자체 보상 생성 능력을 동시에 향상시킵니다. Llama 2 70B를 세 번의 반복 학습한 결과, AlpacaEval 2.0 리더보드에서 Claude 2, Gemini Pro, GPT-4 0613 등 여러 기존 시스템을 능가하는 성능을 달성했습니다.