Liger: Linearizing Large Language Models to Gated Recurrent Structures
Created by
Haebom
Category
Empty
저자
Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng
개요
본 논문은 사전 훈련된 대규모 언어 모델(LLM)을 게이트가 있는 선형 순환 모델로 변환하는 새로운 방법인 Liger를 제시합니다. Liger는 추가적인 매개변수 없이 사전 훈련된 키 매트릭스 가중치를 재사용하여 다양한 게이트가 있는 순환 구조를 생성합니다. 저계수 적응(LoRA)을 이용한 경량 미세 조정을 통해 선형화된 게이트 순환 모델의 성능을 원래 LLM의 성능과 일치하도록 복원합니다. 또한, 계층 내 하이브리드 어텐션 메커니즘인 Liger Attention을 도입하여 선형화 과정 중 0.02%의 사전 훈련 토큰으로 Transformer 기반 LLM의 93% 성능을 회복합니다. 10억~80억 매개변수 모델을 대상으로 여러 벤치마크에서 경쟁력 있는 결과를 달성했습니다.
시사점, 한계점
•
시사점:
◦
사전 훈련된 LLM을 효율적인 선형 순환 모델로 변환하는 새로운 방법 제시.
◦
추가 매개변수 없이 기존 가중치를 재활용하여 비용 효율적인 선형화 달성.
◦
Liger Attention을 통해 Transformer 기반 LLM의 성능을 상당 부분 유지.
◦
다양한 크기의 LLM에서 경쟁력 있는 성능 입증.
◦
효율적인 배포를 위한 선형화된 LLM의 실용적인 가능성 제시.
•
한계점:
◦
Liger의 성능이 원래 LLM과 완전히 동일하지 않고 일부 성능 저하가 발생할 수 있음. (93% 회복은 특정 조건 하에서의 결과이며, 모든 경우에 동일한 성능을 보장하지 않음)