Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data

Created by
  • Haebom

저자

Wenkai Fang, Shunyu Liu, Yang Zhou, Kongcheng Zhang, Tongya Zheng, Kaixuan Chen, Mingli Song, Dacheng Tao

개요

본 논문은 강화학습(RL)을 이용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 대해 다룬다. 기존 연구들이 고품질의 지시사항과 검증 가능한 보상에 의존하는 것과 달리, 본 논문에서는 제한된 초기 데이터로 LLM 학습을 시작하기 위한 자가 학습 강화학습(SeRL) 기법을 제안한다. SeRL은 자가 지시(self-instruction) 모듈과 자가 보상(self-rewarding) 모듈로 구성된다. 자가 지시 모듈은 각 학습 단계에서 이용 가능한 데이터를 기반으로 추가적인 지시사항을 생성하고, 견고한 온라인 필터링 전략을 사용하여 지시사항의 품질, 다양성 및 난이도를 보장한다. 자가 보상 모듈은 간단하지만 효과적인 다수결 투표 메커니즘을 도입하여 추가적인 지시사항에 대한 응답 보상을 추정함으로써 외부 주석의 필요성을 없앤다. 마지막으로 SeRL은 생성된 데이터를 기반으로 기존의 RL을 수행하여 반복적인 자가 학습을 가능하게 한다. 다양한 추론 벤치마크와 여러 LLM 백본에 대한 광범위한 실험을 통해 SeRL이 기존 방법보다 우수한 결과를 제공하며, 검증 가능한 보상을 갖춘 고품질 데이터를 사용한 결과와 동등한 성능을 달성함을 보여준다.

시사점, 한계점

시사점:
제한된 데이터로 LLM의 추론 능력 향상이 가능함을 보여줌.
고품질 데이터 및 검증 가능한 보상에 대한 의존성을 줄임.
자가 지시 및 자가 보상 모듈을 통해 효율적인 자가 학습 프레임워크를 제시.
다양한 벤치마크와 LLM 백본에서 우수한 성능을 입증.
한계점:
자가 보상 모듈의 다수결 투표 메커니즘이 항상 최적의 보상을 제공하는 것은 아닐 수 있음.
자가 지시 모듈의 온라인 필터링 전략의 성능이 데이터 분포에 따라 영향을 받을 수 있음.
특정 도메인에 대한 일반화 성능은 추가적인 연구가 필요.
👍