보조 로봇 조작을 위한 프레임워크를 제시하며, 두 가지 주요 과제에 중점을 둡니다. 첫째, 대규모 모델을 일상생활 시나리오에서 인간 관련 다중 작업 데이터 수집의 어려움을 고려하여, 다운스트림 장면 어포던스 이해 작업에 효율적으로 적응시키는 것입니다. 둘째, 시각적 어포던스 모델을 기반으로 로봇 동작 궤적을 효과적으로 학습시키는 것입니다. 프롬프트 튜닝 기법을 활용하여 매개변수 효율성을 확보하고, 지도 방식의 flow matching 기법으로 로봇 동작 궤적을 학습합니다. 일상생활 활동(ADL) 10가지 작업을 포함하는 실제 데이터셋을 사용하여 프레임워크를 평가합니다.