Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adversarial Preference Learning for Robust LLM Alignment

Created by
  • Haebom

저자

Yuanfu Wang, Pengyu Wang, Chenyang Xi, Bo Tang, Junyi Zhu, Wenqiang Wei, Chen Chen, Chao Yang, Jingfeng Zhang, Chaochao Lu, Yijun Niu, Keming Mao, Zhiyu Li, Feiyu Xiong, Jie Hu, Mingchuan Yang

개요

본 논문은 현대 언어 모델의 안전성을 강화하기 위해 RLHF(Reinforcement Learning from Human Feedback)의 세 가지 주요 한계점(1. 인간 주석의 비효율성과 높은 비용, 2. 다양한 잠재적 적대적 공격, 3. 피드백 편향 및 보상 해킹 위험)을 해결하는 새로운 방법인 APL(Adversarial Preference Learning)을 제시합니다. APL은 모델의 내재적 선호 확률에 기반한 직접적인 해악성 측정, 입력 특정 적대적 변형을 합성하는 조건부 생성 적대자, 취약성 발견 및 완화를 통한 지속적인 적응을 가능하게 하는 자동화된 폐쇄 루프 피드백을 포함하는 세 가지 핵심 혁신을 통합한 반복적인 적대적 훈련 방법입니다. Mistral-7B-Instruct-v0.3 모델을 대상으로 한 실험 결과, APL은 유해 출력을 크게 줄이고(5.88%에서 0.43%로 감소), 적대적 공격 성공률을 최대 65%까지 낮추면서 경쟁력 있는 유용성을 유지함을 보여줍니다.

시사점, 한계점

시사점:
RLHF의 한계를 극복하는 새로운 적대적 훈련 방법인 APL을 제시.
인간 개입을 최소화하면서 모델의 안전성을 향상시키는 효율적인 방법 제시.
실험 결과를 통해 APL의 유효성과 효과를 검증.
모델의 유용성을 유지하면서 안전성을 향상시킬 수 있음을 보여줌.
한계점:
GPT-4o, LLaMA-Guard, HarmBench 등 특정 평가 지표에 의존적인 결과.
다양한 모델 및 데이터셋에 대한 일반화 가능성에 대한 추가 연구 필요.
APL의 장기적인 안정성 및 확장성에 대한 추가적인 검증 필요.
조건부 생성 적대자의 생성 능력에 대한 한계 가능성 존재.
👍