SenBen: Sensitive Scene Graphs for Explainable Content Moderation

Author

Haebom

저자

Fatih Cagatay Akyon, Alptekin Temizel

💡 개요

본 논문은 이미지 기반 콘텐츠 모더레이션 시스템이 민감한 콘텐츠를 분류할 때 공간적 근거와 해석 가능성이 부족하다는 문제를 해결하기 위해 'SenBen'이라는 새로운 대규모 시각 그래프 벤치마크를 제안합니다. SenBen은 영화 장면에서 감정 상태, 공격성 등을 포함한 객체, 속성, 술어를 시각 그래프 형태로 정교하게 주석 처리하고 민감도 태그를 부착하여, 시각 언어 모델(VLM)을 통해 민감한 콘텐츠를 더 정확하고 설명 가능하게 탐지하도록 훈련하는 것을 목표로 합니다. 제안된 훈련 기법은 모델의 효율성을 높이고 기존 VLM 및 상용 API 대비 우수한 성능을 달성했습니다.

🔑 시사점 및 한계

•

시사점 1: 최초의 민감 콘텐츠 전용 대규모 시각 그래프 벤치마크인 SenBen은 콘텐츠 모더레이션 분야의 해석 가능성과 공간적 근거 제공 능력을 크게 향상시킬 잠재력을 가지고 있습니다.

•

시사점 2: 멀티태스킹 훈련 레시피와 Vocabulary-Aware Recall (VAR) Loss, 분리된 Query2Label 태그 헤드 등의 기법을 통해 효율적이면서도 성능이 뛰어난 소형 VLM을 개발하여, 실제 서비스 적용 가능성을 높였습니다.

•

한계점 또는 향후 과제: SenBen 벤치마크는 157편의 영화에서 13,999개의 프레임을 사용하지만, 실제 모든 종류의 민감 콘텐츠를 포괄하기에는 여전히 데이터셋의 다양성과 규모에 대한 추가적인 발전이 필요할 수 있습니다. 또한, 제안된 모델이 Gemini 모델보다는 성능이 뒤처진다는 점을 고려할 때, 더 높은 성능을 위한 후속 연구가 필요합니다.

PDF 보기

Made with Slashpage