Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning-Aware Multimodal Fusion for Hateful Video Detection

Created by
  • Haebom
Category
Empty

저자

Shuonan Yang, Tailin Chen, Jiangbei Yue, Guangliang Cheng, Jianbo Jiao, Zeyu Fu

개요

온라인 비디오 내 혐오 발언은 디지털 플랫폼에 심각한 위협이 되고 있으며, 특히 비디오 콘텐츠가 다중 모달화되고 맥락 의존성이 높아짐에 따라 문제가 더욱 심화되고 있다. 기존 방법들은 모달리티 간 복잡한 의미 관계를 효과적으로 융합하는 데 어려움을 겪고, 미묘한 혐오 콘텐츠를 이해하는 능력도 부족하다. 이를 해결하기 위해, 본 논문은 Reasoning-Aware Multimodal Fusion (RAMF) 프레임워크를 제안한다. RAMF는 Local-Global Context Fusion (LGCF)을 통해 지역적 단서와 전반적인 시간 구조를 모두 포착하고, Semantic Cross Attention (SCA)을 사용하여 세밀한 다중 모달 의미 상호 작용을 가능하게 한다. 또한, 비전-언어 모델이 (i) 객관적 설명, (ii) 혐오 추정 추론, (iii) 비혐오 추정 추론을 생성하는 3단계 적대적 추론을 도입하여, 모델의 맥락적 이해를 풍부하게 한다. 실제 혐오 비디오 데이터셋에 대한 평가 결과, 제안된 방법이 기존 최고 성능 모델보다 Macro-F1에서 3%, 혐오 클래스 재현율에서 7% 향상된 견고한 일반화 성능을 보였다.

시사점, 한계점

시사점:
LGCF 및 SCA를 활용한 효과적인 다중 모달 융합 방법론 제시.
적대적 추론을 통한 혐오 콘텐츠의 미묘한 의미 이해 능력 향상.
실제 혐오 비디오 데이터셋에서 기존 SOTA(State-Of-The-Art) 모델 대비 우수한 성능 입증.
한계점:
익명성 기간 종료 후 코드 공개 예정. (현재는 코드 미공개)
논문의 구체적인 기술적 세부 사항(모델 구조, 하이퍼파라미터 등)에 대한 정보 부족.
다른 종류의 혐오 콘텐츠 및 데이터셋에 대한 일반화 성능 추가 검증 필요.
👍