본 논문은 인간의 단일 시범 학습 능력과 달리 로봇은 일반화에 어려움을 겪는다는 점을 지적하며, 그 원인을 지능적 행동의 근본적인 설명(잠재적 프로그램)을 복구하지 못하기 때문이라고 주장한다. 이를 해결하기 위해, 행동의 계층적 생성 모델을 통해 잠재적 프로그램을 추론하는 Rational Inverse Reasoning (RIR) 프레임워크를 제안한다. RIR은 시각-언어 모델이 구조화된 상징적 작업 가설을 반복적으로 제안하고, 계획자 기반 추론 체계가 관측된 시범의 가능도를 통해 각 가설을 평가하는 베이지안 프로그램 유도 방식으로 소수 샷 모방을 다룬다. 이러한 과정을 통해 간결하고 실행 가능한 프로그램에 대한 사후 확률을 얻는다. 다양한 물체 자세, 개수, 기하학적 형태, 배치 변화를 통해 일회성 및 소수 샷 일반화를 평가하는 연속 조작 작업 집합에서 RIR을 평가한 결과, 단 한 번의 시범만으로도 의도된 작업 구조를 추론하고 새로운 설정으로 일반화하여 최첨단 시각-언어 모델 기준선을 능가하는 성능을 보였다.