본 논문은 전문가 궤적 데이터셋을 활용하여 멀티모달 로봇 궤적 학습을 위한 통합 프레임워크인 Multimodal Diffusion Forcing (MDF)를 제안합니다. MDF는 고정된 분포를 모델링하는 대신, 랜덤 부분 마스킹과 확산 모델을 사용하여 궤적을 재구성합니다. 이러한 훈련 목표는 시간적 의존성과 교차 모달 의존성을 학습하도록 장려하며, 강성 신호에 대한 동작의 영향이나 부분 관찰로부터 상태 추론과 같은 기능을 가능하게 합니다. 시뮬레이션 및 실제 환경에서 접촉이 많고 힘이 필요한 조작 작업에 대해 MDF를 평가하며, 다양한 기능과 강력한 성능, 그리고 잡음이 있는 관찰 하에서의 견고성을 보여줍니다.