Cet article soutient que, contrairement à la capacité humaine à apprendre à partir d'exemples isolés, les robots peinent à généraliser, arguant que cela est dû à leur incapacité à retrouver l'explication sous-jacente (programme latent) d'un comportement intelligent. Pour y remédier, nous proposons un cadre de raisonnement inverse rationnel (RIR) qui infère les programmes latents grâce à un modèle génératif hiérarchique du comportement. Le RIR aborde l'imitation par petites touches grâce à une approche bayésienne d'induction de programme, où un modèle vision-langage propose de manière itérative des hypothèses de tâches symboliques structurées, et un système d'inférence basé sur un planificateur évalue chaque hypothèse en fonction de la vraisemblance des exemples observés. Ce processus produit une probabilité a posteriori pour un programme concis et réalisable. Nous évaluons le RIR sur un ensemble de tâches de manipulation continue, en évaluant la généralisation par petites touches et par petites touches sur une variété de poses, de nombres, de formes géométriques et d'agencements d'objets. Nous démontrons que le RIR peut inférer la structure de tâche prévue et se généraliser à de nouveaux contextes à partir d'un seul exemple, surpassant ainsi les modèles vision-langage de référence de pointe.