강화 학습(RL)을 적대적 기계 학습(AML)에 적용하여 적대적 예제(기계 학습 모델을 속이도록 설계된 입력)를 생성하는 새로운 유형의 공격을 개발하는 방법을 보여줍니다. 기존의 AML 방법과 달리, RL 기반 접근 방식은 과거 공격 경험을 유지하고 활용하여 향후 공격을 개선합니다. 적대적 예제 생성을 마르코프 의사 결정 과정으로 공식화하고, RL의 (a) 효과적이고 효율적인 공격 전략 학습 능력과 (b) 최첨단 AML과의 경쟁력을 평가합니다. CIFAR-10에서, 본 에이전트는 적대적 예제의 성공률을 19.4% 증가시키고, 훈련 시작부터 끝까지 적대적 예제당 피해 모델 쿼리의 중간값을 53.2% 감소시킵니다. 최첨단 이미지 공격인 SquareAttack과의 직접 비교에서, 본 접근 방식은 5000 에피소드의 훈련 후 13.1% 더 높은 성공률로 적대적 예제를 생성할 수 있게 합니다. 보안 관점에서, 이 연구는 RL을 사용하여 효율적이고 대규모로 ML 모델을 공격하는 강력한 새로운 공격 벡터를 보여줍니다.