Closing the Distribution Gap in Adversarial Training for LLMs

Created by

Haebom

저자

Chengzhi Hu, Jonas Dornbusch, David Ludke, Stephan Gunnemann, Leo Schwinn

💡 개요

이 논문은 거대 언어 모델(LLM)의 적대적 훈련에서 발생하는 배포 간격(distribution gap) 문제를 해결하고자 합니다. 기존 방법론은 훈련 데이터셋에 대해서만 적대적 손실을 최소화하여, 훈련 데이터 분포를 충분히 다루지 못해 간단한 공격에도 취약하다는 한계를 지적합니다. 이를 극복하기 위해, 확산 모델(Diffusion LLMs)을 활용하여 프롬프트와 응답의 실제 결합 분포를 근사하고, 이를 바탕으로 다양하고 높은 확률의 샘플을 생성하는 분포적 적대적 훈련(Distributional Adversarial Training, DAT) 방법을 제안합니다. DAT는 데이터 분포에 대한 최적화와 연속적인 적대적 훈련을 결합하여 기존 방법론보다 훨씬 높은 수준의 적대적 강건성을 달성합니다.

🔑 시사점 및 한계

•

LLM의 적대적 훈련에서 발생하는 배포 간격 문제가 모델의 취약성에 대한 근본 원인임을 규명했습니다.

•

확산 모델을 활용하여 데이터 분포를 효과적으로 근사하고, 이를 통해 모델의 일반화 성능을 향상시키는 새로운 적대적 훈련 방법론(DAT)을 제시했습니다.

•

DAT는 기존 적대적 훈련 기법 대비 상당한 수준의 적대적 강건성 향상을 입증했습니다.

•

향후 연구에서는 DAT 방법론의 효율성을 더욱 높이고, 다양한 LLM 아키텍처 및 공격 유형에 대한 적용 가능성을 탐구할 필요가 있습니다.

PDF 보기

Made with Slashpage