본 논문은 높은 차원의 상태와 희소 보상 환경에서 딥 강화 학습의 효율적인 탐색 문제를 해결하기 위해, (기대) 정보 가치(EVOI)의 개념을 Bootstrapped DQN 알고리즘에 통합하여 탐색 능력을 향상시키는 연구를 소개한다. 구체적으로, 정보 가치의 학습으로부터 얻는 기댓값을 Bootstrapped DQN에 통합하는 두 가지 새로운 알고리즘을 개발했다. 제안된 방법들은 서로 다른 네트워크 헤드 간의 의견 불일치를 측정하기 위해 정보 가치 추정치를 사용하고, 가장 잠재력이 높은 영역을 탐색하도록 유도한다. 복잡하고 희소 보상 Atari 게임에서의 실험을 통해, 제안된 알고리즘들이 성능을 향상시키고 불확실성을 더 잘 활용하며, 추가적인 하이퍼파라미터 없이 작동함을 입증했다.