Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models

작성자

Haebom

카테고리

Empty

저자

Minh-Hao Van, Xintao Wu

개요

본 논문은 소셜 미디어에서 증가하는 증오 표현을 담은 멀티모달 밈을 효과적으로 감지하고 완화하는 방법을 제시합니다. Vision-Language Model (VLM)을 활용하여, 증오성 밈 감지에는 정의 기반 프롬프팅 기법을, 증오성 콘텐츠 완화에는 UnHateMeme이라는 통합 프레임워크를 제안합니다. UnHateMeme은 증오성 텍스트 및/또는 시각적 요소를 대체하여 밈을 비증오적 형태로 변환합니다. LLaVA, Gemini, GPT-4o 등 최첨단 VLM을 사용한 실험을 통해 제안된 방법의 효과성을 검증하고 각 모델의 강점과 한계를 분석합니다. 궁극적으로 안전하고 존중하는 온라인 환경 조성에 VLM의 중요한 응용을 보여줍니다.