Sign In

Same Question, Different Words: A Latent Adversarial Framework for Prompt Robustness

Created by
  • Haebom
Category
Empty

저자

Tingchen Fu, Fazl Barez

개요

본 논문은 대규모 언어 모델(LLM)의 신뢰성 있는 동작과 실제 환경 배포를 위해 의미를 보존하는 프롬프트 변형(paraphrases)에 대한 민감도가 낮아야 함을 강조합니다. 기존 연구들은 시행착오를 통한 프롬프트 엔지니어링 또는 계산 비용이 높은 추론 시간 알고리즘에 의존하지만, 본 논문에서는 최악의 프롬프트가 임베딩 공간에서 드리프트를 보인다는 핵심 통찰력에 기반하여 Latent Adversarial Paraphrasing (LAP)을 제시합니다. LAP는 이중 루프 적대적 프레임워크로, 내부 루프는 라그랑주 규제를 통해 의미를 보존하면서 "잠재적 연속적 paraphrases" 역할을 하는 학습 가능한 섭동을 훈련하고, 외부 루프는 이러한 섭동에 대해 언어 모델 매개변수를 최적화합니다. RobustAlpaca 벤치마크를 사용한 다양한 LLM 아키텍처에 대한 광범위한 실험을 통해 기존 지도 학습 미세 조정에 비해 최악의 경우 승률에서 0.5%-4%의 절대적인 향상을 보임을 입증합니다.

시사점, 한계점

시사점:
LLM의 프롬프트 paraphrasing에 대한 민감도 문제를 해결하기 위한 효과적인 방법인 LAP 제시.
라그랑주 규제를 통해 의미를 보존하면서 잠재적 연속적 paraphrases를 생성하는 새로운 접근 방식 제시.
RobustAlpaca 벤치마크에서 기존 방법 대비 성능 향상을 실험적으로 검증.
한계점:
LAP의 성능 향상이 절대적인 수치로 0.5%-4%에 불과하여 상대적으로 제한적일 수 있음.
다양한 LLM 아키텍처에 대한 실험을 진행했지만, 모든 LLM에 일반화될 수 있는지에 대한 추가적인 연구 필요.
라그랑주 규제의 하이퍼파라미터 조정에 대한 자세한 설명 부족 가능성.
👍