본 논문은 일반성과 높은 계산 비용으로 인해 단순한 $\epsilon$-greedy 방식이 선호되는 현실을 개선하고자, 표준 DQN에 행동 함수 $\beta$를 추가한 간단하고 효율적인 탐험 방법인 $\beta$-DQN을 제안한다. $\beta$ 함수는 각 상태에서 각 행동이 취해질 확률을 추정하며, 이를 활용하여 상태-행동 커버리지와 과대평가 편향 보정 사이의 탐험 균형을 맞추는 다양한 정책 집단을 생성한다. 적응형 메타 컨트롤러는 각 에피소드에 효과적인 정책을 선택하여 유연하고 설명 가능한 탐험을 가능하게 한다. $\beta$-DQN은 구현이 간단하고, 표준 DQN에 최소한의 계산 오버헤드만 추가한다. 다양한 탐험 도메인에서 실험한 결과, $\beta$-DQN은 기존 baseline 방법들을 능가하여 심층 강화 학습에서 탐험을 개선하는 효과적인 솔루션을 제공한다.