본 논문은 대상 모델에 대한 지식, 과도한 질의, 또는 훈련 데이터 접근 없이도 자연어 처리 모델(NLP 모델), 특히 대규모 언어 모델(LLM)을 속이는 텍스트 기반 적대적 공격인 Victim Data-based Adversarial Attack (VDBA)을 제시합니다. VDBA는 공개적으로 이용 가능한 사전 훈련된 모델과 군집화 방법을 사용하여 대체 모델을 생성하는 그림자 데이터셋을 활용하여 대상 모델 접근 없이 공격을 수행합니다. 단일 대체 모델의 실패를 완화하기 위해 계층적 대체 모델 설계를 도입하고, 다양한 적대적 예시 생성 방법을 사용하여 유사성과 공격 효과가 더 나은 적대적 예시를 생성하고 선택합니다. Emotion과 SST5 데이터셋을 이용한 실험 결과, VDBA는 최첨단 방법보다 성능이 우수하며, 공격 질의를 0으로 크게 줄이면서 ASR(Attack Success Rate)을 52.08% 향상시켰습니다. 특히, Qwen2 및 GPT 계열과 같은 LLM에 대한 심각한 위협을 제기하며, API 접근 없이도 45.99%의 최고 ASR을 달성하여 고급 NLP 모델이 여전히 심각한 보안 위험에 직면하고 있음을 확인했습니다.