본 논문은 강화학습(RL)과 다중 에이전트 강화학습(MARL)을 자동화된 사이버 방어(ACD)에 적용하는 방법에 대한 지침을 제공합니다. 고차원적이고 적대적인 환경에서 적응적인 의사결정 능력을 제공하는 RL과 MARL의 장점을 활용하여, 설명 가능성, 탐색 필요성, 다중 에이전트 조정의 복잡성 등을 고려하여 특정 사용 사례에 대한 적합성을 평가하는 구조화된 지침을 제시합니다. 주요 알고리즘 접근 방식, 구현상의 과제, 데이터 부족 및 적대적 간섭과 같은 현실 세계의 제약 조건에 대해서도 논의하며, 정책 최적화, 에이전트 협력 수준, MARL 시스템의 운영 사이버 보안 프레임워크 통합 등 미해결 연구 과제를 제시합니다. 이러한 지침은 이론적 발전과 실제 배포를 연결하여 AI 기반 사이버 방어 전략의 효과를 높이는 것을 목표로 합니다.