본 논문은 자원 제약이 있는 에지 디바이스에서 다중 에이전트 심층 강화 학습(MADRL)을 효율적으로 적용하기 위한 새로운 스파스 순환 MARL 프레임워크를 제시합니다. 동적 스펙트럼 접속(DSA)과 같은 복잡한 환경에서 분산 의사결정 시스템을 최적화하는 MADRL의 높은 계산 비용 문제를 해결하기 위해, 독립적인 행위자-전역 비평가 패러다임에 점진적 신경망 가지치기를 통합합니다. 또한, 기존의 선형 및 다항 가지치기 스케줄러와 비교하여 큰 스파스성에서도 비슷하거나 더 나은 성능을 달성하는 조화 어닐링 스파스성 스케줄러를 제안합니다. 실험 결과, 제안된 DSA 프레임워크는 다양한 훈련 조건에서 기존 DSA, MADRL 기준 및 최첨단 가지치기 기술보다 우수한 정책을 발견함을 보여줍니다.