본 논문은 객체 인식 모델에서 백도어 공격을 탐지하는 새로운 방법을 제시합니다. 기존 연구들이 주로 가중치 미세 조정을 통한 백도어 공격 완화에 초점을 맞춘 반면, 본 논문은 훈련 및 추론 과정에서 보이지 않는 백도어 이미지를 직접 탐지하는 데 중점을 둡니다. 방대한 데이터셋으로 인해 수동 검사가 불가능하고, 기존 방어 메커니즘도 완벽하지 않다는 점을 고려하여, 비전 언어 모델(VLMs)의 프롬프트 튜닝을 활용하여 학습 가능한 텍스트 프롬프트를 통해 정상 이미지와 백도어 트리거가 포함된 이미지를 구분하는 방법을 제안합니다. 실험 결과, 두 개의 유명한 데이터셋에서 평균 86%의 높은 정확도로 보이지 않는 백도어 트리거를 탐지하는 뛰어난 효과를 보였습니다.