본 논문은 이미지 기반 콘텐츠 모더레이션 시스템이 민감한 콘텐츠를 분류할 때 공간적 근거와 해석 가능성이 부족하다는 문제를 해결하기 위해 'SenBen'이라는 새로운 대규모 시각 그래프 벤치마크를 제안합니다. SenBen은 영화 장면에서 감정 상태, 공격성 등을 포함한 객체, 속성, 술어를 시각 그래프 형태로 정교하게 주석 처리하고 민감도 태그를 부착하여, 시각 언어 모델(VLM)을 통해 민감한 콘텐츠를 더 정확하고 설명 가능하게 탐지하도록 훈련하는 것을 목표로 합니다. 제안된 훈련 기법은 모델의 효율성을 높이고 기존 VLM 및 상용 API 대비 우수한 성능을 달성했습니다.