Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms
Created by
Haebom
저자
Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan
개요
본 논문은 대규모 언어 모델(LLM)의 강화 학습 기반 사후 훈련에서 추론과 정책 최적화를 동일한 GPU 클러스터에서 수행하는 기존 방식의 한계를 지적합니다. 이는 단일 프로그램 다중 데이터(SPMD) 가정을 위반하여 효율성을 저해합니다. 따라서 본 논문은 추론과 훈련을 이기종 "추론" 및 "훈련" 스웜으로 분리하여 통계적 효율성을 유지하는 Echo라는 강화 학습 시스템을 제안합니다. Echo는 최소한의 편향을 위해 API 호출에 따라 정책 가중치를 갱신하는 순차적 풀 모드와 하드웨어 활용도를 극대화하기 위해 버전 태그가 지정된 롤아웃을 재생 버퍼를 통해 스트리밍하는 비동기 푸시-풀 모드라는 두 가지 경량 동기화 프로토콜을 도입합니다. Qwen3-4B, Qwen2.5-7B 및 Qwen3-32B를 사용하여 세 가지 대표적인 강화 학습 작업을 지리적으로 분산된 클러스터에서 훈련한 결과, Echo는 완전히 공동 배치된 Verl 기준과 수렴 속도 및 최종 보상에서 동일한 성능을 보이며, 추론 작업을 일반적인 에지 하드웨어로 오프로드합니다. 이러한 결과는 대규모 LLM 강화 학습이 분산된 이기종 자원을 사용하여 데이터센터 수준의 성능을 달성할 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델의 강화 학습에서 추론과 훈련을 분리하여 지리적으로 분산된 이기종 자원을 효율적으로 활용할 수 있는 가능성을 제시합니다.
◦
데이터센터 수준의 성능을 유지하면서 추론 작업을 에지 하드웨어로 오프로드하여 비용을 절감할 수 있습니다.
◦
순차적 풀 모드와 비동기 푸시-풀 모드를 통해 통계적 효율성을 유지하면서 하드웨어 활용도를 극대화할 수 있습니다.
•
한계점:
◦
제안된 Echo 시스템의 확장성 및 다양한 LLM과의 호환성에 대한 추가적인 연구가 필요합니다.
◦
지리적으로 분산된 환경에서 발생할 수 있는 통신 지연 및 오류 처리에 대한 자세한 분석이 필요합니다.