Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

High-Throughput Distributed Reinforcement Learning via Adaptive Policy Synchronization

Created by
  • Haebom

저자

Rodney Lafuente-Mercado

개요

본 논문은 분산 환경 시뮬레이션을 통해 강화학습(RL) 작업의 확장성을 향상시키는 경량의 학습 알고리즘에 독립적인 인터페이스인 ClusterEnv를 제시합니다. 기존 프레임워크의 모듈성 및 재사용성 한계를 극복하기 위해, ClusterEnv는 Gymnasium API를 따르는 분산 환경 실행을 위한 인터페이스를 제공하며, DETACH 패턴을 통해 원격 작업자에게 reset() 및 step() 연산을 위임하여 시뮬레이션과 학습을 분리합니다. 또한, 분산 실행에서의 정책 오래됨 문제를 해결하기 위해, 발산을 트리거로 하는 업데이트 메커니즘인 AAPS(Adaptive Actor Policy Synchronization)를 제안하여 동기화 오버헤드를 줄이면서 성능을 유지합니다. ClusterEnv는 기존 RL 파이프라인에 통합이 용이하며, 온-폴리시 및 오프-폴리시 방법 모두를 지원하고 코드 변경이 최소화됩니다. 이산 제어 작업에 대한 실험 결과, AAPS가 가중치 업데이트 횟수를 크게 줄이면서 높은 샘플 효율성을 달성함을 보여줍니다. 소스 코드는 깃허브에서 공개됩니다.

시사점, 한계점

시사점:
기존 강화학습 프레임워크의 모듈성 및 재사용성 문제 해결
경량의 학습 알고리즘에 독립적인 분산 환경 실행 인터페이스 제공
DETACH 패턴을 통한 시뮬레이션과 학습의 효과적인 분리
AAPS를 통한 분산 환경에서의 정책 오래됨 문제 해결 및 높은 샘플 효율성 달성
온-폴리시 및 오프-폴리시 방법 모두 지원
최소한의 코드 변경으로 기존 RL 파이프라인에 통합 가능
한계점:
제시된 실험은 이산 제어 작업에 국한됨. 연속 제어 작업 또는 다른 유형의 작업으로의 일반화 가능성에 대한 추가 연구 필요.
AAPS의 성능은 작업의 특성 및 하이퍼파라미터 설정에 따라 달라질 수 있음. 최적의 하이퍼파라미터 튜닝에 대한 추가 연구 필요.
대규모 분산 환경에서의 확장성 및 안정성에 대한 추가적인 검증 필요.
👍