ClusterEnvは分散環境を実行するための軽いインターフェースで、使い慣れたGymnasium APIを維持し、強化学習(RL)を拡張するように設計されています。 DETACHパターンを使用して、環境のreset()およびstep()操作をリモートワーカーに移動し、学習を一元化します。重い通信なしでポリシーの古さを減らすために、集中学習者との発散が大きくなったときにのみオペレータが更新を要求するAdaptive Policy Synchronization(APS)を提案します。 ClusterEnvはオン/オフポリシー方式をすべてサポートし、既存の学習コードに最小限の変更で統合され、クラスタで効率的に実行されます。離散制御操作の実験では、APSはパフォーマンスを維持しながら同期オーバーヘッドを減らすことを示しています。