본 논문은 Text-to-Image (T2I) 모델의 발전으로 인해 발생하는 NSFW 콘텐츠 생성 및 웹 사회 오염 문제를 해결하기 위한 연구를 제시합니다. 기존의 NSFW 필터 및 사후 보안 검사의 취약성을 지적하며, 텍스트 및 이미지 모달리티에 대한 적대적 공격에 강인한 방어 메커니즘의 필요성을 강조합니다. 이를 위해, 백만 스케일의 텍스트 프롬프트와 이미지 쌍, 그리고 적대적 예제들을 포함하는 다모달 NSFW 데이터셋을 제시하고, 적대적 공격에 강건한 다모달 NSFW 방어 모델을 개발합니다. 실험 결과, 제안된 모델은 기존 최첨단 NSFW 탐지 방법보다 높은 정확도와 재현율을 달성하고, 다모달 적대적 공격 시나리오에서 공격 성공률(ASR)을 획기적으로 감소시킴을 보여줍니다.