Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Diffusion Guided Adversarial State Perturbations in Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Xiaolin Sun, Feidi Liu, Zhengming Ding, ZiZhan Zheng

개요

강화 학습(RL) 시스템은 다양한 분야에서 뛰어난 성과를 거두었지만, 적대적 공격에 취약하다. 특히, 고차원 이미지 입력을 사용하는 비전 기반 환경에서 작은 조작만으로도 에이전트의 행동을 오도할 수 있다. 이에 따라 다양한 방어 기법이 제안되었지만, 기존 방어 기법의 효과는 $l_p$ 노름 제약 공격의 근본적인 약점, 즉 비교적 큰 섭동 예산 하에서도 이미지 입력의 의미를 거의 변경하지 못한다는 점에 기인한다. 본 연구에서는 이러한 한계를 극복하기 위해 정책에 독립적인 확산 기반 상태 섭동 공격인 SHIFT를 제안한다. SHIFT는 현실적이고 기록 정렬된 상태를 유지하면서, 실제 상태와 의미론적으로 다른 섭동된 상태를 생성할 수 있다. 평가 결과, SHIFT는 가장 정교한 방어 기법을 포함하여 기존의 방어 기법을 효과적으로 무너뜨리며, 기존 공격보다 훨씬 뛰어나고 지각적으로 더 은밀하다는 것을 보여주었다.

시사점, 한계점

시사점:
RL 에이전트가 의미론적 인식을 고려한 적대적 섭동에 취약함을 보여줌.
더욱 강력한 정책 개발의 중요성을 강조.
SHIFT 공격은 기존 방어 기법의 한계를 극복하고, 새로운 공격 방법론을 제시함.
한계점:
논문 자체에서 명시된 한계점은 제시되지 않음. (논문 요약만을 근거로 작성)
👍