본 논문은 대규모 다중 모달 모델(LMMs)의 암묵적 독성, 특히 편견과 차별에 대한 미묘한 독성인 이중 암묵적 독성(dual-implicit toxicity)에 초점을 맞추고 있습니다. 연구진은 이중 암묵적 독성 데이터셋(MDIT-Dataset)을 다단계 인간-루프 상황 내 생성 방법을 사용하여 생성하고, 이를 기반으로 12개 카테고리, 23개 하위 카테고리, 780개 주제를 포함하는 317,638개의 질문으로 구성된 이중 암묵적 독성 벤치마크(MDIT-Bench)를 제시합니다. MDIT-Bench는 세 가지 난이도 수준을 포함하며, 모델의 독성 격차를 측정하는 지표를 제안합니다. 13개의 주요 LMM에 대한 실험 결과, LMM들이 이중 암묵적 독성을 효과적으로 처리하지 못하며, 특히 어려운 수준에서 성능이 크게 저하됨을 보여주어 LMM 내에 활성화 가능한 숨겨진 독성이 상당량 존재함을 시사합니다. 데이터는 GitHub에서 공개됩니다.