본 논문은 제한된 샘플링 예산 내에서 목표 발견을 극대화하기 위해, 의료 이미징, 환경 모니터링 또는 원격 감지와 같이 데이터 수집 비용이 많이 드는 다양한 과학 및 공학 분야에서 관찰되지 않은 영역의 전략적 샘플링을 소개합니다. 새로운 방법인 확산-유도 능동 목표 발견(DiffATD)을 제시하는데, 이는 확산 역학을 활용하여 능동적으로 목표를 발견합니다. DiffATD는 환경 내 각 관찰되지 않은 상태에 대한 신념 분포를 유지하며, 이 분포를 사용하여 탐색-활용의 균형을 동적으로 조절합니다. 탐색은 가장 높은 예상 엔트로피를 가진 영역을 샘플링하여 불확실성을 줄이고, 활용은 신념 분포와 목표의 특성을 학습하도록 설계된 점진적으로 훈련된 보상 모델에 의해 나타나는 목표를 발견할 가능성이 가장 높은 영역을 목표로 합니다. DiffATD는 사전 지도 학습에 의존하지 않고 고정된 샘플링 예산 내에서 부분적으로 관찰 가능한 환경에서 효율적인 목표 발견을 가능하게 합니다. 또한, 광범위한 지도 학습을 필요로 하는 기존의 블랙박스 정책과 달리 해석 가능성을 제공합니다. 의료 이미징 및 원격 감지와 같은 다양한 분야에 걸쳐 광범위한 실험과 절제 연구를 통해 DiffATD가 기준선보다 훨씬 우수한 성능을 보이고 완전한 환경 관찰 하에서 작동하는 지도 학습 방식과 경쟁력 있게 성능을 발휘함을 보여줍니다.