Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Self-Guided Defense: Adaptive Safety Alignment for Reasoning Models via Synthesized Guidelines

Created by
  • Haebom
Category
Empty

저자

Yuhang Wang, Yanxu Zhu, Dongyuan Lu, Jitao Sang

개요

추론 모델은 복잡한 추론 작업에서 뛰어난 능력을 보여주지만, 적대적인 탈옥 프롬프트에 대한 안전성을 확보하는 것은 여전히 중요한 과제입니다. 이러한 프롬프트는 은밀하고 기만적인 특성으로 인해 내장된 안전 메커니즘을 쉽게 우회하고 유해한 콘텐츠를 생성할 수 있습니다. 본 논문은 모델이 적대적 입력에 대응하여 방어 능력을 자율적으로 강화할 수 있도록 하는 적응형 안전 정렬 접근 방식을 제시합니다. Synthesized Guideline-based Adaptive Safety Alignment (SGASA) 프레임워크는 모델 생성 안전 가이드라인을 내부화하여 유해한 적대적 프롬프트에 대한 견고성을 강화하고, 무해한 요청에 대한 불필요한 거부를 최소화합니다. SGASA는 안전 가이드라인 및 증강 프롬프트를 생성하는 데이터 사전 합성 단계와, Supervised Fine-tuning (SFT) 및 Direct Preference Optimization (DPO)을 활용하여 이러한 가이드라인을 모델에 포함시키는 정렬 미세 조정 단계로 구성됩니다. 여러 데이터 세트에 대한 광범위한 실험을 통해 SGASA가 모델 안전성을 크게 향상시키고, 적응성과 확장성을 입증했습니다.

시사점, 한계점

SGASA 프레임워크는 모델이 적대적인 탈옥 프롬프트에 대한 방어 능력을 자율적으로 강화할 수 있는 적응형 안전 정렬 방식을 제시합니다.
모델 생성 안전 가이드라인을 활용하여 유해한 콘텐츠 생성 가능성을 줄입니다.
SFT 및 DPO를 사용하여 안전 가이드라인을 모델에 효과적으로 통합합니다.
다양한 데이터셋에 대한 실험을 통해 SGASA의 효과를 입증했습니다.
SGASA의 구체적인 구현 및 성능 개선에 대한 추가적인 연구가 필요합니다.
모델의 안전성을 향상시키는 동시에 무해한 요청에 대한 거부를 최소화하는 균형을 맞추는 것이 중요합니다.
본 논문에서 사용된 특정 데이터셋 및 실험 설정에 대한 상세 정보가 더 필요할 수 있습니다.
👍