Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

Created by
  • Haebom

저자

Yifan Wang, Runjin Chen, Bolian Li, David Cho, Yihe Deng, Ruqi Zhang, Tianlong Chen, Zhangyang Wang, Ananth Grama, Junyuan Hong

개요

본 논문은 Direct Preference Optimization (DPO)를 이용하여 대규모 언어 모델(LLM)을 인간의 가치에 맞추는 과정에서, 다중 모델 생성 데이터를 사용하면 일반적인 작업 성능은 향상되지만, 안전성 측면에서는 오히려 성능이 저하되는 현상을 발견했습니다. 특히, GPT-4o와 같이 강력한 모델을 사용하여 선호하는 응답과 거부하는 응답을 생성하는 경우, 모델이 jailbreaking prompt에 대한 공격 성공률(ASR)이 높아지는 것을 확인했습니다. 단일 모델 생성 데이터를 사용하는 경우가 다중 모델 생성 데이터를 사용하는 경우보다 안전성 측면에서 훨씬 우수한 성능을 보였으며, 이는 다중 모델 데이터의 높은 선형 분리 가능성으로 인해 모델이 안전 제약 조건을 내면화하기보다는 표면적인 단서를 이용하기 때문이라고 분석했습니다. Llama, Mistral, Qwen 계열 모델을 대상으로 한 실험 결과를 통해 이러한 결론을 뒷받침했습니다.

시사점, 한계점

시사점: DPO를 이용한 LLM 안전성 향상을 위해서는 다중 모델 생성 데이터 사용의 장점과 단점을 신중하게 고려해야 함을 시사합니다. 단일 모델 생성 데이터를 사용하는 것이 안전성 측면에서는 더 효과적일 수 있습니다. 강력한 모델을 사용한 다중 모델 생성 데이터는 오히려 안전성을 저해할 수 있다는 점을 명확히 보여줍니다.
한계점: 본 연구는 특정 모델 계열과 데이터셋에 대한 실험 결과를 바탕으로 한 것이므로, 다른 모델이나 데이터셋에 대한 일반화 가능성은 제한적입니다. 다중 모델 생성 데이터의 안전성 저해 원인에 대한 더 심층적인 분석이 필요합니다. 안전성 향상을 위한 대안적인 DPO 전략에 대한 추가적인 연구가 필요합니다.
👍