Alignment-Constrained Dynamic Pruning for LLMs: Identifying and Preserving Alignment-Critical Circuits
Created by
Haebom
Category
Empty
저자
Dev Patel, Gabrielle Gervacio, Diekola Raimi, Kevin Zhu, Ryan Lagasse, Gabriel Grand, Ashwinee Panda, Maheep Chaudhary
개요
대규모 언어 모델(LLM)은 추론에 많은 컴퓨팅 자원을 필요로 하여 배포에 어려움을 겪는다. 동적 가지치기는 적응형 회로 선택을 통해 정적 방법보다 효율적이지만, 다양한 입력에 걸쳐 입력 종속적 안전 중요 회로만 유지함으로써 정렬 저하를 악화시킨다. 본 연구는 Probe Pruning을 기반으로, 추론 중 정렬 관련 회로를 적응적으로 보존하는 동적 구조적 가지치기 방법인 Alignment-Aware Probe Pruning(AAPP)을 제안한다. LLaMA 2-7B, Qwen2.5-14B-Instruct, Gemma-3-12B-IT에 대한 실험 결과, AAPP는 동일한 컴퓨팅 자원에서 거부율을 50% 향상시켜 효율적이면서도 안전을 보장하는 LLM 배포를 가능하게 함을 보였다.
시사점, 한계점
•
시사점:
◦
AAPP는 동적 가지치기를 통해 LLM의 효율성을 향상시키면서, 안전성을 유지하는 새로운 방법을 제시한다.
◦
실험 결과는 AAPP가 다양한 LLM 모델에서 거부율을 크게 향상시킬 수 있음을 보여준다.