Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms

Created by
  • Haebom

저자

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

개요

본 논문은 대규모 언어 모델(LLM)의 강화 학습 기반 사후 훈련에서 추론과 정책 최적화를 동일한 GPU 클러스터에서 수행하는 기존 방식의 한계를 지적합니다. 이는 단일 프로그램 다중 데이터(SPMD) 가정을 위반하여 효율성을 저해합니다. 따라서 본 논문은 추론과 훈련을 이기종 "추론" 및 "훈련" 스웜으로 분리하여 통계적 효율성을 유지하는 Echo라는 강화 학습 시스템을 제안합니다. Echo는 최소한의 편향을 위해 API 호출에 따라 정책 가중치를 갱신하는 순차적 풀 모드와 하드웨어 활용도를 극대화하기 위해 버전 태그가 지정된 롤아웃을 재생 버퍼를 통해 스트리밍하는 비동기 푸시-풀 모드라는 두 가지 경량 동기화 프로토콜을 도입합니다. Qwen3-4B, Qwen2.5-7B 및 Qwen3-32B를 사용하여 세 가지 대표적인 강화 학습 작업을 지리적으로 분산된 클러스터에서 훈련한 결과, Echo는 완전히 공동 배치된 Verl 기준과 수렴 속도 및 최종 보상에서 동일한 성능을 보이며, 추론 작업을 일반적인 에지 하드웨어로 오프로드합니다. 이러한 결과는 대규모 LLM 강화 학습이 분산된 이기종 자원을 사용하여 데이터센터 수준의 성능을 달성할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
대규모 언어 모델의 강화 학습에서 추론과 훈련을 분리하여 지리적으로 분산된 이기종 자원을 효율적으로 활용할 수 있는 가능성을 제시합니다.
데이터센터 수준의 성능을 유지하면서 추론 작업을 에지 하드웨어로 오프로드하여 비용을 절감할 수 있습니다.
순차적 풀 모드와 비동기 푸시-풀 모드를 통해 통계적 효율성을 유지하면서 하드웨어 활용도를 극대화할 수 있습니다.
한계점:
제안된 Echo 시스템의 확장성 및 다양한 LLM과의 호환성에 대한 추가적인 연구가 필요합니다.
지리적으로 분산된 환경에서 발생할 수 있는 통신 지연 및 오류 처리에 대한 자세한 분석이 필요합니다.
다양한 하드웨어 환경에서의 성능 평가가 추가적으로 필요합니다.
👍