본 논문은 에고센트릭 비디오 기반 모델의 강점과 관성 측정 장치(IMU) 센서의 장점을 결합하여 인간 활동 인식(HAR)의 성능을 향상시키는 새로운 방법인 COMODO를 제안합니다. COMODO는 비디오 모달리티에서 IMU 모달리티로 풍부한 의미 정보를 전달하는 크로스-모달 자기 지도 학습 증류 프레임워크입니다. 사전 학습된 비디오 인코더를 활용하여 동적 인스턴스 큐를 구성하고, 비디오와 IMU 임베딩의 특징 분포를 정렬함으로써 레이블이 없는 데이터를 이용하여 IMU 인코더가 비디오의 풍부한 의미 정보를 학습하도록 합니다. 실험 결과, COMODO는 여러 에고센트릭 HAR 데이터셋에서 기존의 완전 지도 학습 모델과 비교하여 동등하거나 더 나은 성능을 보이며, 특히 크로스-데이터셋 일반화 성능이 우수함을 보여줍니다. 단순한 구조 덕분에 다양한 비디오 및 시계열 사전 학습 모델에 적용 가능하며, 향후 더 강력한 기반 모델을 활용할 가능성을 제시합니다.