Sign In

COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition

Created by
  • Haebom
Category
Empty

저자

Baiyu Chen, Wilson Wongso, Zechen Li, Yonchanok Khaokaew, Hao Xue, Flora Salim

개요

본 논문은 에고센트릭 비디오 기반 모델의 강점과 관성 측정 장치(IMU) 센서의 장점을 결합하여 인간 활동 인식(HAR)의 성능을 향상시키는 새로운 방법인 COMODO를 제안합니다. COMODO는 비디오 모달리티에서 IMU 모달리티로 풍부한 의미 정보를 전달하는 크로스-모달 자기 지도 학습 증류 프레임워크입니다. 사전 학습된 비디오 인코더를 활용하여 동적 인스턴스 큐를 구성하고, 비디오와 IMU 임베딩의 특징 분포를 정렬함으로써 레이블이 없는 데이터를 이용하여 IMU 인코더가 비디오의 풍부한 의미 정보를 학습하도록 합니다. 실험 결과, COMODO는 여러 에고센트릭 HAR 데이터셋에서 기존의 완전 지도 학습 모델과 비교하여 동등하거나 더 나은 성능을 보이며, 특히 크로스-데이터셋 일반화 성능이 우수함을 보여줍니다. 단순한 구조 덕분에 다양한 비디오 및 시계열 사전 학습 모델에 적용 가능하며, 향후 더 강력한 기반 모델을 활용할 가능성을 제시합니다.

시사점, 한계점

시사점:
에고센트릭 비디오의 풍부한 정보를 에너지 효율적이고 개인 정보 보호가 가능한 IMU 기반 모델에 효과적으로 전달하는 방법을 제시합니다.
레이블이 없는 데이터를 활용하여 자기 지도 학습을 통해 성능 향상을 이끌어냅니다.
다양한 데이터셋에서 우수한 크로스-데이터셋 일반화 성능을 보입니다.
간단한 구조로 다양한 모델에 적용 가능하며, 향후 발전 가능성이 높습니다.
한계점:
본 논문에서 제시된 방법이 모든 종류의 에고센트릭 HAR 작업에 적용 가능한지에 대한 추가적인 연구가 필요합니다.
사전 학습된 비디오 인코더에 대한 의존성이 존재합니다. 더욱 강건한 시스템을 위해 다양한 teacher model에 대한 추가 실험이 필요합니다.
실제 환경에서의 장기간 성능 평가가 부족합니다.
👍