The Attacker in the Mirror: Breaking Self-Consistency in Safety via Anchored Bipolicy Self-Play

작성자

Haebom

카테고리

Empty

저자

Gabriele La Malfa, Emanuele La Malfa, Saar Cohen, Jie M. Zhang, Michael Luck, Michael Wooldridge, Elizabeth Black

💡 개요

본 논문은 AI 안전성 향상을 위한 자기 대전(self-play) 기법의 한계점을 지적하고, 동일 모델을 공격자와 방어자로 사용할 때 발생하는 이론적, 구조적 제약을 해결하기 위한 새로운 접근 방식인 "Anchored Bipolicy Self-Play"를 제안합니다. 제안된 방법은 고정된 기반 모델 위에 역할별 LoRA 어댑터를 학습시켜, 안정적인 최적화와 명확한 역할 분리를 통해 적대적 압력을 유지하며 안전성 향상을 이끌어냅니다.

🔑 시사점 및 한계

•

동일 모델을 사용하는 기존 자기 대전 방식은 필연적으로 단순 거절 전략이나 오라클 수준의 방어 전략으로 수렴하여 실용성이 떨어지는 문제를 가지고 있습니다.

•

제안된 Anchored Bipolicy Self-Play는 역할별 LoRA 어댑터를 사용하여 파라미터 효율성을 100배까지 높이고, 기존 자기 대전 방식보다 일관된 안전성 향상을 보여줍니다.

•

다양한 규모의 Qwen2.5 모델에 대한 평가 결과, 추론 능력 손실 없이 향상된 견고성을 입증했으며, 교차 플레이 실험에서도 기존 자기 대전 방식보다 우수한 적대적 방어 및 안전성을 보였습니다.

•

향후 연구는 더욱 복잡하고 다양한 공격 시나리오에 대한 견고성 강화 및 실제 적용 가능한 범위를 넓히는 방향으로 진행될 수 있습니다.

PDF 보기

Made with Slashpage