본 논문은 대규모 언어 모델(LLM)의 신뢰성 있는 동작과 실제 환경 배포를 위해 의미를 보존하는 프롬프트 변형(paraphrases)에 대한 민감도가 낮아야 함을 강조합니다. 기존 연구들은 시행착오를 통한 프롬프트 엔지니어링 또는 계산 비용이 높은 추론 시간 알고리즘에 의존하지만, 본 논문에서는 최악의 프롬프트가 임베딩 공간에서 드리프트를 보인다는 핵심 통찰력에 기반하여 Latent Adversarial Paraphrasing (LAP)을 제시합니다. LAP는 이중 루프 적대적 프레임워크로, 내부 루프는 라그랑주 규제를 통해 의미를 보존하면서 "잠재적 연속적 paraphrases" 역할을 하는 학습 가능한 섭동을 훈련하고, 외부 루프는 이러한 섭동에 대해 언어 모델 매개변수를 최적화합니다. RobustAlpaca 벤치마크를 사용한 다양한 LLM 아키텍처에 대한 광범위한 실험을 통해 기존 지도 학습 미세 조정에 비해 최악의 경우 승률에서 0.5%-4%의 절대적인 향상을 보임을 입증합니다.