Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms
Created by
Haebom
Category
Empty
저자
Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan
개요
본 논문은 대규모 언어 모델(LLM)의 강화 학습 기반 사후 훈련에서 추론과 정책 최적화를 동일한 GPU 클러스터에서 수행하는 기존 방식의 한계를 지적합니다. 이는 단일 프로그램 다중 데이터(SPMD) 가정을 위반하여 효율성을 저해합니다. 따라서 본 논문은 추론과 훈련을 이기종 "추론" 및 "훈련" 스웜으로 분리하여 통계적 효율성을 유지하는 Echo라는 강화 학습 시스템을 제안합니다. Echo는 최소한의 편향을 위해 API 호출에 따라 정책 가중치를 갱신하는 순차적 풀 모드와 하드웨어 활용도를 극대화하기 위해 버전 태그가 지정된 롤아웃을 재생 버퍼를 통해 스트리밍하는 비동기 푸시-풀 모드라는 두 가지 경량 동기화 프로토콜을 도입합니다. Qwen3-4B, Qwen2.5-7B 및 Qwen3-32B를 사용하여 세 가지 대표적인 강화 학습 작업을 지리적으로 분산된 클러스터에서 훈련한 결과, Echo는 완전히 공동 배치된 Verl 기준과 수렴 속도 및 최종 보상에서 동일한 성능을 보이며, 추론 작업을 일반적인 에지 하드웨어로 오프로드합니다. 이러한 결과는 대규모 LLM 강화 학습이 분산된 이기종 자원을 사용하여 데이터센터 수준의 성능을 달성할 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델의 강화 학습에서 추론과 훈련을 분리하여 지리적으로 분산된 이기종 자원을 효율적으로 활용할 수 있는 가능성을 제시합니다.
◦
데이터센터 수준의 성능을 유지하면서 추론 작업을 에지 하드웨어로 오프로드하여 비용을 절감할 수 있습니다.
◦
순차적 풀 모드와 비동기 푸시-풀 모드를 통해 통계적 효율성을 유지하면서 하드웨어 활용도를 극대화할 수 있습니다.
•
한계점:
◦
제안된 Echo 시스템의 확장성 및 다양한 LLM과의 호환성에 대한 추가적인 연구가 필요합니다.
◦
지리적으로 분산된 환경에서 발생할 수 있는 통신 지연 및 오류 처리에 대한 자세한 분석이 필요합니다.