본 논문은 시각 기반 심층 강화 학습에서 설명 가능성을 향상시키기 위해 해석 가능한 특징 추출기(Interpretable Feature Extractor, IFE) 아키텍처를 제안합니다. 기존 CNN의 공간적 문제점을 해결하기 위해, IFE는 사람이 이해할 수 있는 인코딩 모듈과 에이전트 친화적인 인코딩 모듈을 통합하여 정확하고 해석 가능한 어텐션 마스크를 생성합니다. 이 마스크는 에이전트가 시각적 입력에서 "무엇"과 "어디"에 집중하는지를 정확하게 보여줍니다. IFE는 Fast and Data-efficient Rainbow 프레임워크에 통합되어 57개의 ATARI 게임에서 평가되었으며, 공간 보존, 해석 가능성 및 데이터 효율성 측면에서 효과를 보였습니다. 또한, Asynchronous Advantage Actor-Critic 모델에도 IFE를 적용하여 그 활용성을 보여줍니다.