# Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering

### 저자

Ali Anaissi, Junaid Akram, Kunal Chaturvedi, Ali Braytee

### 개요

본 논문은 다양한 모드(텍스트, 이미지)를 활용하여 증오심을 표현하는 밈을 탐지하기 위한 다중 모달 증오 탐지 프레임워크를 제안합니다.  기존의 텍스트 또는 이미지 기반 탐지 시스템은 미묘하거나 은유적인 표현을 사용하는 밈을 탐지하는 데 어려움을 겪는다는 점을 고려하여, OCR, 캡션 생성, 하위 레이블 분류, RAG(Retrieval Augmented Generation), VQA(Visual Question Answering)를 통합하는 프레임워크를 제시합니다. 이를 통해 기존 방식으로는 감지하기 어려운 잠재적인 신호를 포착할 수 있습니다. Facebook Hateful Memes 데이터셋을 이용한 실험 결과, 제안된 프레임워크는 단일 모달 및 기존 다중 모달 모델보다 정확도와 AUC-ROC 측면에서 우수한 성능을 보였습니다.

### 시사점, 한계점

- **시사점:**

    - 다중 모달 정보를 효과적으로 활용하여 미묘한 증오 표현이 포함된 밈을 탐지하는 새로운 프레임워크를 제시.

    - 기존 모델보다 향상된 성능을 통해 증오 밈 탐지 기술 발전에 기여.

    - RAG와 VQA를 활용하여 문맥 정보를 고려한 심층 분석 가능성 제시.

- **한계점:**

    - 제안된 프레임워크의 일반화 성능에 대한 추가적인 검증 필요.

    - 특정 플랫폼(Facebook)의 데이터셋에 의존적인 결과. 다른 플랫폼이나 다양한 유형의 밈에 대한 일반화 가능성 평가 필요.

    - 새로운 유형의 증오 표현이나 변형된 밈에 대한 적응력 평가 필요.

[PDF 보기](https://arxiv.org/pdf/2504.16723)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).