Cet article souligne l'importance de comprendre les affordances d'objets à granularité fine pour la manipulation robotique d'objets dans des environnements non structurés. Les méthodes de prédiction de caractéristiques visuelles existantes sont limitées par leur dépendance à des données annotées manuellement ou par leurs limitations, qui les limitent à un ensemble de tâches prédéfini. En réponse, nous présentons la distillation d'affordance non supervisée (UAD), une méthode qui distille la connaissance des caractéristiques d'un modèle de base vers un modèle de caractéristiques conditionnel à la tâche, sans aucune annotation manuelle. Tirant parti des atouts complémentaires des modèles de vision à grande échelle et des modèles vision-langage, l'UAD annote automatiquement un vaste ensemble de données de paires . En entraînant un décodeur conditionnel à la tâche léger sur des caractéristiques fixes, l'UAD démontre des performances de généralisation remarquables dans des environnements robotiques réels et diverses activités humaines, bien qu'elle ne soit entraînée que sur des objets rendus dans les simulations. En utilisant les fonctionnalités fournies par UAD comme espace d'observation, nous proposons une politique d'apprentissage par imitation qui démontre des performances de généralisation prometteuses sur des instances d'objets invisibles, des catégories d'objets et des variations dans les instructions de tâches, même après une formation sur seulement 10 exemples.