본 논문은 일반 목적 로봇의 핵심 능력인 인간 환경 내에서의 행동을 위해 시각 및 텍스트 입력을 결합하는 visuomotor 정책 프레임워크 내에서 확산 모델의 활용을 탐구합니다. 텍스트 명령으로 지정된 조작 작업을 수행하기 위해 참조 시연을 사용하여 훈련하며, 향상된 임베딩과 이미지 생성 기술을 채택하여 기존 모델을 확장합니다. CALVIN 데이터셋을 통해 다양한 조작 작업에서 향상된 성능과 여러 작업을 순차적으로 실행할 때 장기적인 성공률 증가를 입증했습니다.