Cet article souligne que si l'apprentissage par imitation permet un comportement robotique qualifié, il souffre d'une faible efficacité d'échantillonnage et d'une généralisation limitée, ce qui complique la gestion de tâches multi-objets à long terme. Les méthodes existantes nécessitent de nombreuses démonstrations pour appréhender les variations possibles des tâches, ce qui les rend coûteuses et peu pratiques pour des applications concrètes. Cette étude introduit des cadres d'affordance orientés, une représentation structurée des espaces d'état et d'action, pour améliorer la généralisation spatiale et catégorielle et entraîner efficacement des politiques avec seulement 10 démonstrations. Plus important encore, cette abstraction permet la généralisation compositionnelle de sous-politiques entraînées indépendamment pour gérer des tâches multi-objets à long terme. Pour faciliter les transitions fluides entre les sous-politiques, nous introduisons le concept de prédiction d'auto-progression, dérivé directement de la durée des démonstrations d'entraînement. Des expériences sur trois tâches concrètes impliquant des interactions multi-objets à plusieurs étapes démontrent que les politiques se généralisent de manière robuste aux apparences d'objets invisibles, aux formes géométriques et aux arrangements spatiaux, malgré une faible quantité de données, et atteignent des taux de réussite élevés sans nécessiter de données d'entraînement volumineuses.