Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Energy-Driven Steering: Reducing False Refusals in Large Language Models

Created by
  • Haebom

저자

Eric Hanchen Jiang, Weixuan Ou, Run Liu, Shengyuan Pang, Guancheng Wan, Ranjie Duan, Wei Dong, Kai-Wei Chang, XiaoFeng Wang, Ying Nian Wu, Xinfeng Li

Energy-Driven Steering (EDS) for Safe Alignment of LLMs

개요

본 논문은 대규모 언어 모델(LLM)의 안전 정렬 문제 해결을 위해 개발된, 미세 조정이 필요 없는 프레임워크인 Energy-Driven Steering (EDS)를 소개한다. EDS는 LLM의 안전성을 향상시키는 동시에 무해한 프롬프트에 대한 거부 반응을 줄이는 것을 목표로 한다. 외부 에너지 기반 모델(EBM)을 훈련하여 유해한 상태에는 높은 에너지를, 바람직한 상태에는 낮은 에너지를 할당한다. 추론 과정에서 EBM은 LLM의 내부 활성화를 에너지 랜드스케이프에 매핑하고, 에너지 함수의 기울기를 사용하여 LLM의 은닉 상태를 낮은 에너지 영역으로 동적으로 유도하여 원하는 응답을 생성한다. 이 방법은 모델의 가중치를 변경하지 않고 실시간으로 작동하며, 모델의 핵심 지식으로부터 행동 제어를 분리하여 유연성을 제공한다.

시사점, 한계점

시사점:
미세 조정 없이 LLM의 안전성과 무해한 프롬프트에 대한 응답성을 모두 향상시키는 새로운 프레임워크 제시.
외부 EBM을 활용하여 LLM의 행동을 동적으로 제어하는 혁신적인 접근 방식.
다양한 모델에 대한 광범위한 실험을 통해 높은 안전성과 낮은 거짓 거부율을 달성함을 입증.
ORB-H 벤치마크에서 순응도를 57.3%에서 82.6%로 대폭 향상시킴.
모델의 핵심 지식과 행동 제어를 분리하여 유연성을 확보하고 계산 부담을 최소화.
한계점:
논문에 직접적인 한계점 언급은 없음. 하지만, EBM의 훈련 및 성능에 대한 추가적인 연구가 필요할 수 있음.
다른 안전 벤치마크 및 실제 환경에서의 일반화 성능에 대한 추가적인 검증 필요.
EDS가 적용되는 LLM의 종류와 크기에 따른 성능 변화에 대한 분석 필요.
👍