본 논문은 비구조화된 환경에서 로봇의 물체 조작을 위해 미세한 물체 기능(affordance) 이해의 중요성을 강조합니다. 기존의 시각적 기능 예측 방법들은 수동 주석 데이터에 의존하거나 미리 정의된 작업 집합에만 국한되는 한계를 가지고 있습니다. 이에 본 논문에서는 UAD (Unsupervised Affordance Distillation)라는 방법을 제시합니다. UAD는 어떠한 수동 주석 없이도 기초 모델(foundation model)로부터 기능 지식을 작업 조건부 기능 모델로 증류하는 방법입니다. 대규모 비전 모델과 비전-언어 모델의 상호 보완적인 강점을 활용하여, UAD는 <지시, 시각적 기능> 쌍으로 구성된 대규모 데이터셋을 자동으로 주석 처리합니다. 고정된 특징 위에 경량의 작업 조건부 디코더만을 학습시킴으로써, UAD는 시뮬레이션의 렌더링된 물체에 대해서만 학습되었음에도 불구하고, 실제 로봇 환경과 다양한 인간 활동에 대한 주목할 만한 일반화 성능을 보여줍니다. UAD가 제공하는 기능을 관측 공간으로 사용하여, 본 논문은 단 10개의 시범만으로 학습 후에도 보이지 않는 물체 인스턴스, 물체 범주, 그리고 작업 지시의 변화에 대한 유망한 일반화 성능을 보여주는 모방 학습 정책을 제시합니다.