본 논문은 다양한 콘텐츠 유형(텍스트, 이미지, 비디오)을 활용하여 사용자-아이템 상호작용의 희소성을 완화하고 사용자 참여를 증진시키는 다중 모달 추천 시스템을 제안합니다. 기존 신경망 기반 모델의 복잡한 학습 과정으로 인한 높은 계산 비용 문제를 해결하기 위해, 그래프 필터링(GF) 기반의 학습이 필요 없는 방법인 MultiModal-Graph Filtering (MM-GF)를 제시합니다. MM-GF는 다양한 모달 특징의 이질성을 해결하기 위해 강건한 스케일링과 벡터 이동과 같은 비자명한 다중 모달 특징 개선을 통해 여러 유사성 그래프를 구성합니다. 그런 다음, 다양한 모달 간에 선형 저역 통과 필터를 사용하여 다중 모달 정보를 최적으로 융합합니다. 실제 벤치마크 데이터셋에 대한 광범위한 실험을 통해 MM-GF가 최고 경쟁자보다 최대 13.35%의 추천 정확도 향상을 달성하는 동시에 10초 미만의 실행 시간으로 계산 비용을 획기적으로 줄이는 것을 보여줍니다.