능동적 모방 학습(AIL)은 훈련 중에 전문가에게 질의하여 공변량 이동에 대처한다. 그러나, 전문가 행동 라벨링은 비용을 압도하는 경우가 많다. CRSAIL(Conformalized Rejection Sampling for Active Imitation Learning)은 전문가가 라벨링한 데이터 세트에 방문한 상태가 부족하게 표현될 때만 전문가 행동을 요청하는 질의 규칙이다. CRSAIL은 $K$번째 가장 가까운 전문가 상태까지의 거리를 기준으로 상태 참신도를 평가하고, 적합 예측을 통해 단일 글로벌 임계값을 설정한다. 이 임계값은 on-policy 보정 점수의 경험적 $(1-\alpha)$ 분위수이며, $\alpha$를 예상 질의율과 연결하고 $\alpha$를 작업에 구애받지 않는 튜닝 노브로 만드는 분포 무관 보정 규칙을 제공한다. 이 상태 공간 질의 전략은 이상치에 강하며, 안전 게이트 기반 AIL과 달리 실시간 전문가 인수를 거치지 않고 실행할 수 있다. 학습기로 전체 궤적(에피소드)을 롤아웃하고, 그 후에 방문한 상태의 하위 집합에 대해 전문가에게 질의한다. MuJoCo 로봇 작업에서 평가한 결과, CRSAIL은 DAgger에 비해 최대 96%, 이전 AIL 방법에 비해 최대 65%까지 총 전문가 질의를 줄이면서 전문가 수준의 보상을 달성하거나 초과하며, $\alpha$와 $K$에 대한 경험적 견고성을 통해 알려지지 않은 동역학을 가진 새로운 시스템에 대한 배포를 용이하게 한다.