Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs
Created by
Haebom
저자
Sayed Mohammad Vakilzadeh Hatefi, Maximilian Dreyer, Reduan Achtibat, Patrick Kahardipraja, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin
개요
본 논문은 대규모 언어 모델(LLM)의 효율성과 안전성을 향상시키기 위한 새로운 프레임워크를 제시합니다. 기존 LLM의 높은 파라미터 수로 인한 메모리 및 연산 자원 제약 문제를 해결하기 위해, Layer-wise Relevance Propagation (LRP) 기반의 attribution-guided pruning 기법을 제안합니다. LRP를 활용하여 LLM의 불필요한 부분을 제거하고, 작업 관련 하위 그래프(circuits)를 추출하여 핵심 기능을 표현합니다. 또한, 잘못된 동작(예: 유해 출력)을 담당하는 circuits를 선택적으로 제거하여 모델을 수정하는 기법을 소개합니다. Llama와 OPT 모델을 대상으로 한 실험을 통해 모델 압축, circuit 발견 및 모델 수정에서 프레임워크의 효과와 한계를 보여줍니다. 소스 코드는 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
LRP 기반 attribution-guided pruning을 통해 LLM의 크기를 크게 줄이면서 성능 저하를 최소화할 수 있음을 보여줌.
◦
작업 관련 하위 그래프(circuits)를 추출하여 LLM의 핵심 기능을 이해하고 분석할 수 있는 새로운 방법 제시.
◦
잘못된 동작을 유발하는 부분을 제거하여 LLM의 안전성을 향상시킬 수 있는 가능성 제시.
◦
효율적인 LLM 개발 및 배포를 위한 실용적인 프레임워크 제공.
•
한계점:
◦
제안된 방법의 효과 및 한계는 Llama와 OPT 모델에 대한 실험에 국한됨. 다른 LLM 아키텍처나 데이터셋에 대한 일반화 가능성은 추가 연구가 필요.
◦
LRP 기반의 attribution 방법 자체의 한계(예: 설명 가능성의 한계)가 프레임워크의 성능에 영향을 미칠 수 있음.