Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MixAT: Combining Continuous and Discrete Adversarial Training for LLMs

Created by
  • Haebom

저자

Csaba Dekany, Stefan Balauca, Robin Staab, Dimitar I. Dimitrov, Martin Vechev

개요

본 논문은 최첨단 대규모 언어 모델(LLM)에 대한 적대적 공격이 여전히 유해한 결과물을 지속적으로 생성할 수 있다는 문제를 다룹니다. 기존의 이산적 적대적 공격은 효과적이지만, 구체적인 적대적 프롬프트를 사용한 LLM 훈련은 계산 비용이 많이 듭니다. 따라서 연속적 완화 기법에 의존하는 경우가 많지만, 이러한 기법은 이산적 입력 토큰에 해당하지 않아 다양한 이산적 공격에 취약합니다. 본 연구에서는 이산적 공격과 빠른 연속적 공격을 결합한 새로운 방법인 MixAT를 제시합니다. MixAT는 다양한 최첨단 공격에 대한 강력한 견고성을 보여주며, 특히 최악의 경우 취약성을 포착하는 ALO-ASR(At Least One Attack Success Rate) 지표를 사용하여 평가합니다. 실제 배포 환경에서도 채팅 템플릿, 양자화, 저랭크 어댑터, 온도 등의 요소가 적대적 훈련 및 평가에 미치는 영향을 분석하여 기존 방법론의 추가적인 취약점을 밝힙니다. MixAT는 최소한의 계산 오버헤드로 우수한 견고성-정확도 절충안을 제공합니다.

시사점, 한계점

시사점:
MixAT는 기존 방어 방법보다 훨씬 향상된 견고성(ALO-ASR < 20%)을 달성합니다. (기존 방어 방법 ALO-ASR > 50%)
연속적 완화 기법 기반 방법과 비슷한 실행 시간을 유지하면서 뛰어난 성능을 보입니다.
채팅 템플릿, 양자화, 저랭크 어댑터, 온도 등 실제 배포 환경 요소의 영향을 분석하여 LLM 안전성 향상에 대한 통찰력을 제공합니다.
이산-연속 방어 전략을 통해 원칙적이고 우수한 견고성-정확도 절충안을 제공합니다.
한계점:
ALO-ASR 지표는 최악의 경우 취약성만을 반영하므로, 모든 유형의 공격에 대한 완벽한 방어를 보장하지는 않습니다.
MixAT의 성능은 사용된 특정 공격과 데이터셋에 의존할 수 있습니다. 다양한 공격 및 데이터셋에 대한 추가적인 실험이 필요합니다.
실제 배포 환경에서의 모든 변수를 완벽하게 고려하지 못했을 가능성이 있습니다.
👍