본 논문은 대규모 환경에서 복잡하고 장기적인 작업을 수행하는 관계형 모델 학습에 있어 효율적인 탐색의 중요성을 강조합니다. 무작위 탐색의 비효율성을 지적하며, 목표 지향적 발화(GLIB)의 한계를 극복하기 위해 관계형 도메인에서 효율적인 탐색의 두 가지 원리를 제시합니다. 첫째, 계획에 필요한 독립적인 상승 효과를 다루는 데모를 이용한 연산자 초기화이고, 둘째, 정보가 풍부한 목표-행동 쌍을 선택하고 계획을 실행하여 정보가 풍부한 전이를 수집하기 위한 전제 조건 개선입니다. 이러한 원리를 증명하기 위해 광범위한 상태-행동 공간과 장기적인 작업을 가진 도전적인 도메인인 Baking-Large를 소개하고, 연산자 초기화를 위한 오라클 기반 데모와 전제 조건 타겟팅 가이드를 사용하여 방법론을 평가합니다. 실험 결과, 오라클 데모와 전제 조건 타겟팅 오라클 가이드 모두 표본 효율성과 일반화 성능을 크게 향상시킴을 보여주며, 복잡한 도메인에서 정확한 관계형 모델을 효율적으로 학습하는 미래 방법에 대한 기반을 마련합니다.