Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhanced Multimodal Hate Video Detection via Channel-wise and Modality-wise Fusion

Created by
  • Haebom

저자

Yinghui Zhang, Tailin Chen, Yuchen Zhang, Zeyu Fu

개요

본 논문은 TikTok과 YouTube와 같은 플랫폼에서 증가하는 증오 영상의 확산 문제를 해결하기 위해, 새로운 다중 모달(텍스트, 오디오, 비디오) 융합 메커니즘을 사용하는 CMFusion 모델을 제안합니다. CMFusion은 사전 훈련된 모델을 이용하여 각 모달에서 특징을 추출하고, 시간적 상호작용을 포착하기 위해 시간적 교차 어텐션 메커니즘을 도입합니다. 추출된 특징들은 채널별 및 모달별 융합 모듈을 통해 처리되어 영상의 정보성 표현을 얻습니다. 실제 데이터셋을 이용한 실험 결과, CMFusion은 기존 다섯 가지 기준 모델보다 정확도, 정밀도, 재현율, F1 점수 측면에서 성능이 뛰어남을 보여줍니다. 추가적으로 ablation study와 매개변수 분석을 통해 모델 설계의 효과성을 검증하였으며, 소스 코드는 공개될 예정입니다.

시사점, 한계점

시사점:
다중 모달 정보(텍스트, 오디오, 비디오)를 효과적으로 융합하여 증오 영상 검출 성능을 향상시켰습니다.
시간적 상호작용을 고려하여 미묘한 증오 표현을 더욱 정확하게 감지할 수 있습니다.
제안된 CMFusion 모델은 기존 모델보다 우수한 성능을 보이며 실용적인 가능성을 제시합니다.
소스 코드 공개를 통해 연구의 재현성과 확장성을 높였습니다.
한계점:
사용된 데이터셋의 특성에 따라 일반화 성능이 제한될 수 있습니다.
새로운 유형의 증오 표현이나 변형된 표현에 대한 적응력이 추가적으로 검증되어야 합니다.
모델의 계산 복잡도와 처리 시간에 대한 고려가 필요할 수 있습니다.
👍