Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models

Created by
  • Haebom
Category
Empty

저자

Michael Noukhovitch, Shengyi Huang, Sophie Xhonneux, Arian Hosseini, Rishabh Agarwal, Aaron Courville

개요

본 논문은 기존 강화학습 기반 미세조정(RLHF)의 온라인 및 온-폴리시 접근 방식의 비효율성을 해결하기 위해 비동기적 생성 및 학습을 제안합니다. LLM 정책에서 동시에 생성하고, 보상 모델로 라벨링하고, LLM 자체 출력에 대한 피드백을 사용하여 학습하는 기존 방식과 달리, 본 논문은 생성과 학습을 분리하여 새로운 샘플을 비동기적으로 생성하는 동안 이전 샘플로 동시에 학습함으로써 학습 속도를 높이고 컴퓨팅 효율을 향상시킵니다. 이는 온라인이지만 오프-폴리시 RLHF 환경에 의존하며, 이전 모델 반복의 샘플로 학습하는 과정에서 더 낮은 품질의 훈련 신호를 다루는 어려움을 안고 있습니다. 여러 RLHF 알고리즘 중 온라인 DPO가 오프-폴리시 데이터에 가장 강건하며, 이 강건성은 정책 모델의 규모가 커질수록 증가함을 확인했습니다. 비동기 RLHF의 확장성을 검증하기 위해 LLaMA 3.1 8B를 사용하여 일반 목적 챗봇을 훈련한 결과, 동기적 실행보다 약 40% 빠른 속도로 최종 성능을 달성했습니다. 또한 수학 및 추론 작업에 대한 결과를 확장하여 Rho 1B를 GSM8k에서 동기적 정확도와 동일하게 유지하면서 약 70% 빠르게 미세 조정할 수 있음을 보였습니다.

시사점, 한계점

시사점:
기존 RLHF의 비효율적인 온라인 및 온-폴리시 접근 방식을 개선하여 학습 속도를 크게 향상시켰습니다 (최대 70% 단축).
비동기 RLHF의 확장성을 다양한 모델과 작업(챗봇, 수학 및 추론)에서 검증했습니다.
온라인 DPO 알고리즘이 오프-폴리시 데이터에 강건함을 보였고, 모델 규모가 클수록 강건성이 증가함을 확인했습니다.
한계점:
비동기적 훈련을 위한 몇몇 컴퓨팅 최적화 기법은 성능 저하를 야기하여 성능과 속도 간의 트레이드오프가 존재함을 시사합니다.
온라인 오프-폴리시 RLHF 환경은 아직 충분히 탐구되지 않은 영역이며, 더 많은 연구가 필요합니다.
👍