본 논문은 모방 학습을 통해 로봇 정책을 학습하는 데 필요한 많은 양의 비용이 드는 라벨링된 전문가 시범 데이터 수집의 어려움을 해결하기 위해, 비지도 학습 방식으로 라벨 없는 관찰 데이터(예: 비디오 시범)를 활용하는 방법을 제시합니다. 기존 방법들이 복잡하고 세밀한 동작을 요구하는 복잡한 로봇 작업에 적용될 때 어려움을 겪는다는 점을 발견하고, 연속적인 잠재 행동 모델(CLAM)을 설계했습니다. CLAM은 라벨 없는 관찰 데이터로부터 복잡한 연속 제어 작업을 해결하는 학습에 필요한 두 가지 주요 요소, 즉 (a) 이산 표현 대신 연속적인 잠재 행동 라벨 사용과 (b) 상대적으로 적은 수의 라벨링된 예시만으로 잠재 행동 공간을 실제 행동으로 쉽게 연결할 수 있도록 행동 디코더를 함께 학습하는 것을 포함합니다. 중요한 점은 라벨링된 예시를 비최적 플레이 데이터에서 수집할 수 있으므로, CLAM은 어떠한 라벨링된 전문가 데이터 없이도 성능이 좋은 정책을 학습할 수 있습니다. DMControl(보행), MetaWorld(조작)의 연속 제어 벤치마크와 실제 WidowX 로봇 팔에서의 실험을 통해 CLAM이 기존 최첨단 방법보다 훨씬 뛰어나며, 최고의 기준선과 비교하여 작업 성공률이 2~3배 향상됨을 보여줍니다.