본 논문은 심층 강화 학습(DRL) 정책이 관측치의 적대적 노이즈에 매우 취약하다는 점과 안전이 중요한 시나리오에서 이로 인해 상당한 위험이 발생한다는 점을 다룹니다. 기존 접근 방식은 인접한 상태 간의 일관된 행동을 강화하거나 적대적으로 방해된 관측치 내에서 최악의 경우 값을 극대화하는 방식으로 이 문제를 해결하려고 시도하지만, 전자는 공격이 성공할 때 성능 저하가 발생하고, 후자는 지나치게 보수적이어서 양호한 환경에서 최적이 아닌 성능을 나타냅니다. 본 논문에서는 이러한 한계가 부분 관측 가능성을 직접 고려하지 못하기 때문이라고 가정하고, 진실된 상태에 대한 믿음을 기반으로 값 최적화와 강건성을 균형 있게 맞추는 새로운 목표인 적대적 반사실적 오류(ACoE)를 제시합니다. 모델이 없는 환경에서 ACoE의 확장성을 확보하기 위해 이론적으로 뒷받침되는 대체 목표인 누적-ACoE(C-ACoE)를 제안합니다. MuJoCo, Atari, Highway와 같은 표준 벤치마크에 대한 실험적 평가를 통해 제안된 방법이 기존 최첨단 접근 방식보다 적대적 RL 문제 해결에 있어 상당히 우수한 성능을 보이며, 적대적 조건 하에서 DRL의 강건성을 개선하는 유망한 방향을 제시함을 보여줍니다.