Energy-Driven Steering: Reducing False Refusals in Large Language Models
Created by
Haebom
저자
Eric Hanchen Jiang, Weixuan Ou, Run Liu, Shengyuan Pang, Guancheng Wan, Ranjie Duan, Wei Dong, Kai-Wei Chang, XiaoFeng Wang, Ying Nian Wu, Xinfeng Li
Energy-Driven Steering (EDS) for Safe Alignment of LLMs
개요
본 논문은 대규모 언어 모델(LLM)의 안전 정렬 문제 해결을 위해 개발된, 미세 조정이 필요 없는 프레임워크인 Energy-Driven Steering (EDS)를 소개한다. EDS는 LLM의 안전성을 향상시키는 동시에 무해한 프롬프트에 대한 거부 반응을 줄이는 것을 목표로 한다. 외부 에너지 기반 모델(EBM)을 훈련하여 유해한 상태에는 높은 에너지를, 바람직한 상태에는 낮은 에너지를 할당한다. 추론 과정에서 EBM은 LLM의 내부 활성화를 에너지 랜드스케이프에 매핑하고, 에너지 함수의 기울기를 사용하여 LLM의 은닉 상태를 낮은 에너지 영역으로 동적으로 유도하여 원하는 응답을 생성한다. 이 방법은 모델의 가중치를 변경하지 않고 실시간으로 작동하며, 모델의 핵심 지식으로부터 행동 제어를 분리하여 유연성을 제공한다.
시사점, 한계점
•
시사점:
◦
미세 조정 없이 LLM의 안전성과 무해한 프롬프트에 대한 응답성을 모두 향상시키는 새로운 프레임워크 제시.
◦
외부 EBM을 활용하여 LLM의 행동을 동적으로 제어하는 혁신적인 접근 방식.
◦
다양한 모델에 대한 광범위한 실험을 통해 높은 안전성과 낮은 거짓 거부율을 달성함을 입증.
◦
ORB-H 벤치마크에서 순응도를 57.3%에서 82.6%로 대폭 향상시킴.
◦
모델의 핵심 지식과 행동 제어를 분리하여 유연성을 확보하고 계산 부담을 최소화.
•
한계점:
◦
논문에 직접적인 한계점 언급은 없음. 하지만, EBM의 훈련 및 성능에 대한 추가적인 연구가 필요할 수 있음.