A2D: Any-Order, Any-Step Safety Alignment for Diffusion Language Models

작성자

Haebom

카테고리

Empty

저자

Wonje Jeung, Sangyeon Yoon, Yoonjun Cho, Dongjae Jeon, Sangwoo Shin, Hyesoo Hong, Albert No

개요

Diffusion 대규모 언어 모델 (dLLM)은 모든 순서의 생성을 가능하게 하지만, 이러한 유연성은 공격 표면을 넓힌다. 유해한 내용이 임의의 위치에 나타날 수 있으며, DIJA와 같은 템플릿 기반 사전 채움 공격은 응답 수준의 거부를 우회한다. 본 논문은 유해한 내용이 발생할 때마다 [EOS] 거부 신호를 내도록 dLLM을 정렬하는 토큰 수준 정렬 방법인 A2D (Any-Order, Any-Step Defense)를 소개한다. 무작위 마스킹 하에서 안전성을 토큰 수준에서 직접 정렬함으로써, A2D는 다양한 조건에서 임의 디코딩 순서 및 임의 단계 사전 채움 공격 모두에 대한 견고성을 달성한다. 또한 실시간 모니터링을 가능하게 한다: dLLM은 응답을 시작할 수 있지만 안전하지 않은 내용이 나타나면 자동으로 종료된다. 안전성 벤치마크에서 A2D는 일관되게 유해한 출력을 방지하여 DIJA 성공률을 80% 이상에서 거의 0% (LLaDA-8B-Instruct에서 1.3%, Dream-v0-Instruct-7B에서 0.0%)로 줄이고, 임계값 [EOS] 확률은 조기 거부를 허용하여 최대 19.3배 더 빠른 안전한 종료를 제공한다.