본 논문은 온라인상, 특히 틱톡과 비치튜트와 같은 소셜 미디어 플랫폼의 비디오 콘텐츠에서의 성차별 감지를 위한 다모달 접근법을 제시합니다. 스페인어로 구성된 새로운 다모달 성차별 감지 데이터셋 MuSeD ($\approx$ 11시간 분량의 비디오)을 소개하고, 텍스트, 음성, 시각적 모달리티의 기여도를 분석하는 혁신적인 주석 프레임워크를 제안합니다. 다양한 대규모 언어 모델(LLM)과 다모달 LLM을 성차별 감지 작업에 평가하여 시각 정보가 성차별 콘텐츠 라벨링에 중요한 역할을 한다는 것을 발견하였습니다. 모델들은 명시적인 성차별은 효과적으로 감지하지만, 고정관념과 같이 암묵적인 경우에는 어려움을 겪는다는 것을 보여주며, 이는 주석자 간의 낮은 합의도와 일치합니다. 이는 암묵적인 성차별 식별이 사회적, 문화적 맥락에 의존하기 때문에 작업 자체의 어려움을 강조합니다.