본 논문은 불법적인 텍스트에서 은어(예: "weed" → "marijuana")의 실제 의미를 파악하는 은어 식별에 대해 다룬다. 기존의 텍스트 기반 방법의 한계를 극복하고자, 텍스트, 이미지, 음성을 포함하는 다중 모달 분석의 필요성을 강조한다. 다중 모달 은어 데이터셋의 부족 문제를 해결하고자, 텍스트, 이미지, 음성을 포함하는 키워드 중심 다중 모달 은어 말뭉치(KOM-Euph)를 제시한다. (Drug, Weapon, Sexuality 세 가지 데이터셋 포함). 또한, 시각 및 음성 기능을 명시적으로 활용하는 키워드 중심 다중 모달 은어 식별 방법(KOM-EI)을 제안한다. 실험 결과, KOM-EI는 최첨단 모델 및 대규모 언어 모델을 능가하며, 다중 모달 데이터셋의 중요성을 보여준다.