복잡한 협력적 다중 에이전트 강화 학습(MARL) 과제에서 동적 작업 분해를 위한 새로운 이중 계층적 MARL 프레임워크인 C$\text{D}^\text{3}$T(Conditional Diffusion Model for Dynamic Task Decomposition)를 제시합니다. C$\text{D}^\text{3}$T는 subtask 및 조정 패턴을 자동으로 추론하도록 설계되었으며, 고차 정책은 subtask 효과를 기반으로 subtask 선택 전략을 생성하기 위해 subtask 표현을 학습합니다. 환경에 대한 subtask의 효과를 포착하기 위해 조건부 확산 모델을 사용하여 다음 관찰 및 보상을 예측합니다. 저차 수준에서 에이전트는 할당된 subtask 내에서 전문화된 기술을 협력적으로 학습하고 공유합니다. 또한, 학습된 subtask 표현은 multi-head attention mixing network에서 추가 의미 정보로 사용되어 가치 분해를 향상시키고 개별 및 결합 가치 함수 간의 효율적인 추론 다리를 제공합니다.