본 논문은 TikTok과 YouTube와 같은 플랫폼에서 증가하는 증오 영상의 확산 문제를 해결하기 위해, 새로운 다중 모달(텍스트, 오디오, 비디오) 융합 메커니즘을 사용하는 CMFusion 모델을 제안합니다. CMFusion은 사전 훈련된 모델을 이용하여 각 모달에서 특징을 추출하고, 시간적 상호작용을 포착하기 위해 시간적 교차 어텐션 메커니즘을 도입합니다. 추출된 특징들은 채널별 및 모달별 융합 모듈을 통해 처리되어 영상의 정보성 표현을 얻습니다. 실제 데이터셋을 이용한 실험 결과, CMFusion은 기존 다섯 가지 기준 모델보다 정확도, 정밀도, 재현율, F1 점수 측면에서 성능이 뛰어남을 보여줍니다. 추가적으로 ablation study와 매개변수 분석을 통해 모델 설계의 효과성을 검증하였으며, 소스 코드는 공개될 예정입니다.