본 논문은 심층 신경망(DNN)의 적대적 공격 취약성에 대한 문제를 다루며, 특히 훈련 데이터 접근 없이 공격하는 'no-box attack' 설정에 초점을 맞춥니다. 기존 연구에서 상대적으로 덜 연구된 no-box attack에서 비전-언어 모델(VLM), 특히 CLIP을 대리 모델로 활용하는 방법을 제시합니다. CLIP을 직접 사용하는 데에는 판별 능력의 한계가 있음을 밝히고, 이를 해결하기 위해 margin-aware feature space optimization을 활용한 MF-CLIP 프레임워크를 제안합니다. 다양한 아키텍처와 데이터셋에 대한 실험 결과, MF-CLIP이 기존 방법보다 성능이 훨씬 우수하며, 표준 모델에서는 15.23%, 적대적 훈련된 모델에서는 9.52% 향상을 보임을 보여줍니다.