대규모 언어 모델의 성공을 바탕으로, 풍부한 비디오 데이터를 활용하여 로봇 학습을 향상시키는 새로운 접근 방식을 제시합니다. 기존 로봇 학습의 어려움인 고비용의 액션-라벨링 데이터 문제를 해결하기 위해, 비디오 데이터 내 상호작용 관련 지식을 활용하는 생성적 사전 학습 방식을 제안합니다. 본 논문에서는 동작 관련 지식에 중점을 둔 Moto라는 모델을 제시하며, 비디오 콘텐츠를 잠재적인 동작 토큰 시퀀스로 변환하여 비지도 학습 방식으로 동작의 "언어"를 학습합니다. Moto-GPT는 동작 토큰 자기회귀를 통해 사전 학습되며, 의미적으로 해석 가능한 동작 토큰 생성, 타당한 동작 궤적 예측, 궤적 합리성 평가 기능을 보여줍니다. 잠재적인 동작 토큰 예측과 실제 로봇 제어를 연결하는 공동 미세 조정 전략을 통해 학습된 동작 사전 지식을 실제 로봇 동작으로 전이합니다. 실험 결과, 미세 조정된 Moto-GPT는 로봇 조작 벤치마크에서 우수한 견고성과 효율성을 보여줍니다.