본 논문은 기존 강화학습 기반 미세조정(RLHF)의 온라인 및 온-폴리시 접근 방식의 비효율성을 해결하기 위해 비동기적 생성 및 학습을 제안합니다. LLM 정책에서 동시에 생성하고, 보상 모델로 라벨링하고, LLM 자체 출력에 대한 피드백을 사용하여 학습하는 기존 방식과 달리, 본 논문은 생성과 학습을 분리하여 새로운 샘플을 비동기적으로 생성하는 동안 이전 샘플로 동시에 학습함으로써 학습 속도를 높이고 컴퓨팅 효율을 향상시킵니다. 이는 온라인이지만 오프-폴리시 RLHF 환경에 의존하며, 이전 모델 반복의 샘플로 학습하는 과정에서 더 낮은 품질의 훈련 신호를 다루는 어려움을 안고 있습니다. 여러 RLHF 알고리즘 중 온라인 DPO가 오프-폴리시 데이터에 가장 강건하며, 이 강건성은 정책 모델의 규모가 커질수록 증가함을 확인했습니다. 비동기 RLHF의 확장성을 검증하기 위해 LLaMA 3.1 8B를 사용하여 일반 목적 챗봇을 훈련한 결과, 동기적 실행보다 약 40% 빠른 속도로 최종 성능을 달성했습니다. 또한 수학 및 추론 작업에 대한 결과를 확장하여 Rho 1B를 GSM8k에서 동기적 정확도와 동일하게 유지하면서 약 70% 빠르게 미세 조정할 수 있음을 보였습니다.