REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations

Author

Haebom

저자

Buyun Liang, Jinqi Luo, Liangzu Peng, Kwan Ho Ryan Chan, Darshan Thaker, Kaleab A. Kinfu, Fengrui Tian, Hamed Hassani, Rene Vidal

💡 개요

본 논문은 대규모 언어 모델(LLM)의 환각(hallucination) 현상을 유발하는 현실적인 적대적 공격 방법론인 REALISTA를 제안합니다. REALISTA는 기존 이산적 프롬프트 공격의 제한된 탐색 공간과 연속적 잠재 공간 공격의 비현실적인 결과라는 한계를 극복하기 위해, 입력에 의존하는 유효한 편집 방향 사전과 잠재 공간에서의 최적화를 결합했습니다. 실험 결과 REALISTA는 기존 최신 공격 방법 대비 우수하거나 동등한 성능을 보였으며, 특히 기존 현실적 공격이 실패했던 자유 형식 응답 설정에서 대형 추론 모델을 성공적으로 공격했습니다.

🔑 시사점 및 한계

•

LLM의 환각을 유발하는 현실적이고 효과적인 공격 방법론을 제시하여 LLM의 신뢰성 평가에 기여합니다.

•

기존 공격 방법론의 단점을 보완하여, 의미론적 일관성을 유지하면서도 다양한 탐색이 가능한 새로운 공격 프레임워크를 제시합니다.

•

현재까지 제시된 방법론이 특정 LLM 아키텍처나 데이터셋에 편향될 가능성이 있으며, 공격 성공률을 더욱 높이기 위한 최적화 기법 연구가 필요합니다.

PDF 보기

Made with Slashpage