본 논문은 미지의 환경에서 에이전트를 제어하고 성능 지표를 최적화하기 위한 효과적인 정책 학습이라는 인공지능의 핵심 과제를 다룬다. Q-학습과 같은 오프-폴리시 학습 방법은 학습자가 과거 경험을 바탕으로 최적의 결정을 내릴 수 있도록 한다. 본 논문은 관찰되지 않은 교란 변수를 사전에 배제할 수 없는 복잡하고 고차원적인 영역에서 편향된 데이터로부터의 오프-폴리시 학습을 연구한다. 잘 알려진 심층 Q-네트워크(DQN)를 기반으로, 관찰된 데이터의 교란 편향에 강건한 새로운 심층 강화 학습 알고리즘을 제안한다. 구체적으로, 본 알고리즘은 관찰과 호환되는 최악의 환경에 대한 안전한 정책을 찾으려고 시도한다. 본 연구는 제안된 방법을 12개의 교란된 Atari 게임에 적용하여, 관찰된 행동 정책과 목표 정책의 입력이 불일치하고 관찰되지 않은 교란 변수가 존재하는 모든 게임에서 표준 DQN을 일관되게 능가함을 발견했다.