본 논문은 로봇의 복잡한 조작 기술 습득을 저해하는 주요 과제 중 하나인 대규모 로봇 데모 데이터 수집의 높은 비용 문제를 해결하기 위해, 시각적 차이에 불변적인 핵심적인 시공간 조작자-객체 상호작용을 포착하는 중간 표현인 의미적 행동 흐름(semantic action flow)을 제시합니다. ViSA-Flow라는 프레임워크를 통해 비표지된 대규모 비디오 데이터로부터 이 표현을 자기 지도 학습하는 방법을 제시합니다. 먼저, 대규모 인간-객체 상호작용 비디오 데이터에서 자동으로 추출된 의미적 행동 흐름에 대해 생성 모델을 사전 훈련하여 조작 구조에 대한 강건한 사전 지식을 학습합니다. 둘째, 동일한 의미적 추상화 파이프라인을 거친 소량의 로봇 데모 데이터를 사용하여 이 사전 지식을 목표 로봇에 효율적으로 적용합니다. CALVIN 벤치마크와 실제 작업에 대한 광범위한 실험을 통해 ViSA-Flow가 특히 데이터가 부족한 환경에서 최첨단 성능을 달성하고, 인간 비디오 관찰로부터 로봇 실행으로 지식을 효과적으로 전이함으로써 기존 방법들을 능가함을 보여줍니다.