Este artículo destaca la importancia de comprender las affordances de objetos de grano fino para la manipulación robótica de objetos en entornos no estructurados. Los métodos existentes de predicción de características visuales están limitados por su dependencia de datos anotados manualmente o por sus limitaciones, que los limitan a un conjunto de tareas predefinido. En respuesta, presentamos la Destilación de Affordance No Supervisada (UAD), un método que destila el conocimiento de las características de un modelo base en un modelo de características condicional a la tarea sin ninguna anotación manual. Aprovechando las fortalezas complementarias de los modelos de visión a gran escala y los modelos de visión-lenguaje, UAD anota automáticamente un gran conjunto de datos de pares . Al entrenar un decodificador ligero condicional a la tarea en características fijas, UAD demuestra un rendimiento de generalización notable en entornos robóticos del mundo real y diversas actividades humanas, a pesar de haber sido entrenado únicamente con objetos renderizados en simulaciones. Utilizando las características proporcionadas por UAD como espacio de observación, proponemos una política de aprendizaje por imitación que demuestra un rendimiento de generalización prometedor en instancias de objetos no vistos, categorías de objetos y variaciones en las instrucciones de la tarea, incluso después del entrenamiento con solo 10 ejemplares.