본 연구는 강화학습에 대한 행동 표적 공격과 그 대응책을 조사합니다. 행동 표적 공격은 상태 관찰에 대한 적대적 개입을 통해 공격자가 원하는 대로 피해자의 행동을 조작하는 것을 목표로 합니다. 기존의 행동 표적 공격은 피해자의 정책에 대한 화이트박스 접근이 필요한 등 몇 가지 한계가 있습니다. 이를 해결하기 위해 본 연구는 적대적 데모로부터의 모방 학습을 사용하는 새로운 공격 방법을 제안하는데, 이는 피해자의 정책에 대한 접근이 제한적이고 환경에 독립적입니다. 또한, 이론적 분석을 통해 정책의 상태 변화에 대한 민감도가 방어 성능, 특히 궤적의 초기 단계에 영향을 미친다는 것을 증명합니다. 이러한 통찰력을 바탕으로, 작업 성능을 유지하면서 공격에 대한 강력한 능력을 향상시키는 시간 할인 규제를 제안합니다. 본 연구는 행동 표적 공격을 위해 특별히 설계된 최초의 방어 전략입니다.