Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms
Created by
Haebom
저자
Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan
개요
본 논문은 대규모 언어 모델(LLM)의 강화학습 기반 사후 훈련에서 추론과 훈련 작업 간의 직렬 전환 문제를 해결하기 위해 Echo라는 시스템을 제시합니다. 기존 시스템은 추론과 정책 최적화를 동일한 GPU 클러스터에서 수행하여 SPMD 가정을 위반하는데, Echo는 추론과 훈련을 이종 클러스터로 분리하여 이 문제를 해결합니다. 두 가지 경량 동기화 프로토콜(순차적 풀 모드와 비동기 푸시-풀 모드)을 도입하여 통계적 효율성을 유지하면서 하드웨어 활용도를 극대화합니다. 실험 결과, 지리적으로 분산된 클러스터에서 다양한 크기의 Qwen LLM을 사용한 훈련에서 Echo는 기존 방식과 동일한 수렴 속도와 최종 보상을 달성하면서 추론 작업을 저가형 에지 하드웨어로 오프로드하는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델의 강화학습 훈련에서 추론과 훈련 작업의 분리를 통해 하드웨어 활용도를 극대화하고 비용을 절감할 수 있음을 보여줍니다.
◦
지리적으로 분산된 이종 하드웨어를 활용하여 데이터센터급 성능을 달성할 수 있음을 시사합니다.
◦
경량 동기화 프로토콜을 통해 통계적 효율성을 유지하면서 분산 훈련의 효율성을 높일 수 있음을 보여줍니다.
•
한계점:
◦
제시된 실험은 특정 LLM(Qwen)과 클러스터 환경에 국한되어 일반화 가능성에 대한 추가 연구가 필요합니다.
◦
다양한 규모와 종류의 LLM에 대한 확장성 및 적용 가능성에 대한 추가 연구가 필요합니다.