Sign In

Liger: Linearizing Large Language Models to Gated Recurrent Structures

Created by
  • Haebom
Category
Empty

저자

Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng

개요

본 논문은 사전 훈련된 대규모 언어 모델(LLM)을 게이트가 있는 선형 순환 모델로 변환하는 새로운 방법인 Liger를 제시합니다. Liger는 추가적인 매개변수 없이 사전 훈련된 키 매트릭스 가중치를 재사용하여 다양한 게이트가 있는 순환 구조를 생성합니다. 저계수 적응(LoRA)을 이용한 경량 미세 조정을 통해 선형화된 게이트 순환 모델의 성능을 원래 LLM의 성능과 일치하도록 복원합니다. 또한, 계층 내 하이브리드 어텐션 메커니즘인 Liger Attention을 도입하여 선형화 과정 중 0.02%의 사전 훈련 토큰으로 Transformer 기반 LLM의 93% 성능을 회복합니다. 10억~80억 매개변수 모델을 대상으로 여러 벤치마크에서 경쟁력 있는 결과를 달성했습니다.

시사점, 한계점

시사점:
사전 훈련된 LLM을 효율적인 선형 순환 모델로 변환하는 새로운 방법 제시.
추가 매개변수 없이 기존 가중치를 재활용하여 비용 효율적인 선형화 달성.
Liger Attention을 통해 Transformer 기반 LLM의 성능을 상당 부분 유지.
다양한 크기의 LLM에서 경쟁력 있는 성능 입증.
효율적인 배포를 위한 선형화된 LLM의 실용적인 가능성 제시.
한계점:
Liger의 성능이 원래 LLM과 완전히 동일하지 않고 일부 성능 저하가 발생할 수 있음. (93% 회복은 특정 조건 하에서의 결과이며, 모든 경우에 동일한 성능을 보장하지 않음)
LoRA를 이용한 추가적인 미세 조정이 필요함.
제시된 방법이 모든 종류의 LLM에 적용 가능한지는 추가적인 연구가 필요함.
Liger Attention의 효과가 특정 LLM 구조에 편향될 가능성 존재.
👍