자율 비행 드론의 강화 학습 기반 항법 시스템은 센서 입력 조작을 통한 적대적 공격에 취약하며, 이는 안전하지 않은 동작과 임무 실패로 이어질 수 있습니다. 본 논문은 고정된 섭동 설정에 의존하는 기존의 강건한 강화 학습 방법론의 일반화 문제를 해결하기 위해, 메타 정책을 사용하여 여러 강건한 정책 중에서 동적으로 선택하는 프레임워크를 제안합니다. 이 프레임워크는 할인된 톰슨 샘플링 (DTS) 메커니즘을 핵심으로 사용하여 정책 선택을 멀티 암드 밴딧 문제로 공식화하여 자체적으로 유도된 적대적 관찰을 통해 가치 분포 변화를 최소화합니다. 다양한 섭동 강도 하에서 훈련된 여러 액션-강건 정책 앙상블을 구성하고, DTS 기반 메타 정책이 이 정책들 사이에서 온라인으로 적응적으로 선택하며, 자체적으로 유도된 조각별 고정 공격에 대한 복원력을 최적화합니다. 이론적 분석을 통해 DTS 메커니즘이 예상 후회를 최소화하여 OOD 공격에 대한 적응적 강건성을 보장하고 불확실성 하에서 안티프래질 행동을 나타냄을 보입니다. 복잡한 3D 장애물 환경에서 화이트 박스 (Projected Gradient Descent) 및 블랙 박스 (GPS 스푸핑) 공격을 모두 포함한 광범위한 시뮬레이션을 통해 제안된 접근 방식이 표준 강건 및 바닐라 강화 학습 기반 방법에 비해 향상된 항법 효율성과 높은 무충돌 궤적 비율을 보여주며, 실제 보안 및 신뢰성 측면의 이점을 강조합니다.