본 논문은 현대 언어 모델의 안전성을 강화하기 위해 RLHF(Reinforcement Learning from Human Feedback)의 세 가지 주요 한계점(1. 인간 주석의 비효율성과 높은 비용, 2. 다양한 잠재적 적대적 공격, 3. 피드백 편향 및 보상 해킹 위험)을 해결하는 새로운 방법인 APL(Adversarial Preference Learning)을 제시합니다. APL은 모델의 내재적 선호 확률에 기반한 직접적인 해악성 측정, 입력 특정 적대적 변형을 합성하는 조건부 생성 적대자, 취약성 발견 및 완화를 통한 지속적인 적응을 가능하게 하는 자동화된 폐쇄 루프 피드백을 포함하는 세 가지 핵심 혁신을 통합한 반복적인 적대적 훈련 방법입니다. Mistral-7B-Instruct-v0.3 모델을 대상으로 한 실험 결과, APL은 유해 출력을 크게 줄이고(5.88%에서 0.43%로 감소), 적대적 공격 성공률을 최대 65%까지 낮추면서 경쟁력 있는 유용성을 유지함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
RLHF의 한계를 극복하는 새로운 적대적 훈련 방법인 APL을 제시.
◦
인간 개입을 최소화하면서 모델의 안전성을 향상시키는 효율적인 방법 제시.
◦
실험 결과를 통해 APL의 유효성과 효과를 검증.
◦
모델의 유용성을 유지하면서 안전성을 향상시킬 수 있음을 보여줌.
•
한계점:
◦
GPT-4o, LLaMA-Guard, HarmBench 등 특정 평가 지표에 의존적인 결과.