Stepwise Reasoning Error Disruption Attack of LLMs
Created by
Haebom
저자
Jingyu Peng, Maolin Wang, Xiangyu Zhao, Kai Zhang, Wanyu Wang, Pengyue Jia, Qidong Liu, Ruocheng Guo, Qi Liu
개요
본 논문은 대규모 언어 모델(LLM)의 추론 과정에서의 안전성과 견고성에 대한 미탐구 영역을 다룹니다. 기존의 LLM 추론 공격은 특정 설정에 제한되거나, 눈에 띄지 않는 특징이 부족하여 실행 가능성과 일반화에 한계가 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 이전 추론 단계에 미묘한 오류를 주입하여 모델이 잘못된 후속 추론 및 최종 답변을 생성하도록 유도하는 Stepwise rEasoning Error Disruption (SEED) 공격을 제안합니다. SEED는 제로샷 및 퓨샷 설정과 호환되며, 자연스러운 추론 흐름을 유지하고, 지시 사항을 수정하지 않고 은밀하게 실행됩니다. 네 가지 모델에 걸쳐 네 가지 데이터셋에서 광범위한 실험을 통해 SEED의 효과를 입증하고, 추론 과정의 방해에 대한 LLM의 취약성을 밝힙니다. 이러한 결과는 실제 응용 프로그램에서 안전성을 보장하기 위해 LLM 추론의 견고성에 대한 더 많은 관심이 필요함을 강조합니다. 소스 코드는 https://github.com/Applied-Machine-Learning-Lab/SEED-Attack 에서 이용 가능합니다.