Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs
Created by
Haebom
저자
Abhay Sheshadri, Aidan Ewart, Phillip Guo, Aengus Lynch, Cindy Wu, Vivek Hebbar, Henry Sleight, Asa Cooper Stickland, Ethan Perez, Dylan Hadfield-Menell, Stephen Casper
개요
본 논문은 대규모 언어 모델(LLM)의 바람직하지 않은 행동을 방지하기 위한 새로운 방법으로, 목표 지향 잠재적 적대적 훈련(Targeted Latent Adversarial Training, Targeted LAT)을 제시합니다. 기존의 적대적 미세 조정은 원치 않는 기능을 제거하기보다는 억제하는 데 초점을 맞추어, '탈옥(jailbreaking)'과 같은 공격에 취약하다는 한계를 지닙니다. 반면 Targeted LAT는 특정 경쟁 작업에 대한 손실을 최소화하는 방식으로 잠재 공간을 조작하여, 다양한 최첨단 방법들을 향상시킵니다. 실험 결과, Targeted LAT는 탈옥에 대한 강력한 방어력을 제공하며, 백도어 제거 및 특정 원치 않는 작업에 대한 지식 제거에도 효과적임을 보여줍니다. 이는 기존 방법보다 훨씬 적은 계산량으로 우수한 성능을 달성합니다.
시사점, 한계점
•
시사점:
◦
Targeted LAT는 LLM의 바람직하지 않은 행동(탈옥, 백도어, 특정 원치 않는 작업 수행)에 대한 효과적인 방어 기법임을 제시합니다.
◦
기존 방법들보다 훨씬 적은 계산 자원으로 우수한 성능을 달성합니다.
◦
탈옥 방지, 백도어 제거, 원치 않는 지식 제거 등 다양한 문제에 적용 가능성을 보여줍니다.
•
한계점:
◦
Targeted LAT의 효과는 특정 경쟁 작업의 선택에 의존적일 수 있습니다. 최적의 경쟁 작업을 선택하는 방법에 대한 추가 연구가 필요합니다.
◦
새로운 유형의 공격이나 잠재적인 취약성에 대한 일반화 성능에 대한 추가적인 검증이 필요합니다.