More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment
Created by
Haebom
저자
Yifan Wang, Runjin Chen, Bolian Li, David Cho, Yihe Deng, Ruqi Zhang, Tianlong Chen, Zhangyang Wang, Ananth Grama, Junyuan Hong
개요
본 논문은 Direct Preference Optimization (DPO)를 이용한 대규모 언어 모델(LLM)의 가치 정렬 과정에서, 다중 모델 생성 데이터가 일반적인 작업 성능 향상에는 기여하지만, 동시에 보안 취약성을 증가시킨다는 것을 밝힙니다. 특히 강력한 모델(예: GPT-4o)을 사용하여 선호하는 응답과 거부된 응답을 쌍으로 생성하는 경우, 모델이 보안 제약 조건을 내면화하기보다는 피상적인 단서를 이용하여 보안 위협에 취약해지는 현상이 나타납니다. Llama, Mistral, Qwen 계열 모델을 이용한 실험 결과, 단일 모델 생성 데이터를 사용하는 것이 다중 모델 생성 데이터를 사용하는 것보다 보안 측면에서 훨씬 우수한 성능을 보임을 확인했습니다. 다중 모델 데이터의 높은 선형 분리 가능성이 이러한 현상의 원인으로 제시됩니다.
시사점, 한계점
•
시사점: DPO를 이용한 LLM 정렬 과정에서 다중 모델 생성 데이터 사용의 위험성을 경고하며, 단일 모델 생성 데이터 사용의 중요성을 강조합니다. 강력한 모델을 이용한 다중 모델 DPO가 안전성에 미치는 부정적 영향을 명확히 제시합니다. 모델의 안전성 평가에 있어 공격 성공률(ASR)을 중요 지표로 활용할 것을 제안합니다.
•
한계점: 본 연구는 특정 모델 계열(Llama, Mistral, Qwen)과 DPO 방법론에 국한된 결과이며, 다른 모델이나 정렬 방법론에 대한 일반화 가능성은 제한적입니다. 다중 모델 생성 데이터의 보안 취약성 문제를 해결하기 위한 구체적인 해결 방안은 제시하지 않습니다. 높은 선형 분리 가능성이 보안 취약성의 유일한 원인인지에 대한 추가 연구가 필요합니다.