Kristjan Greenewald, Luis Lastras, Thomas Parnell, Vraj Shah, Lucian Popa, Giulio Zizzo, Chulaka Gunasekara, Ambrish Rawat, David Cox
개요
Low-Rank Adaptation (LoRA)는 대규모 파운데이션 모델의 파인튜닝을 위한 효율적인 프레임워크로, LLM의 데이터 기반 커스터마이징에 널리 사용된다. 하지만 멀티턴 환경에서 관련 LoRA 간 전환 시, 전체 턴 기록의 KV 캐시를 LoRA 가중치로 다시 계산해야 하는 비효율성이 존재한다. 이 문제를 해결하기 위해, 본 논문은 aLoRA(Activated LoRA)를 제안한다. aLoRA는 aLoRA가 호출된 이후 시퀀스의 토큰에 대해서만 가중치를 적응시키는 어댑터 아키텍처이다. 이를 통해 aLoRA는 입력 문자열의 기본 모델 KV 캐시를 사용할 수 있어, 이전 키와 값을 다시 계산하지 않고 체인 내에서 즉시 활성화될 수 있다. 이로 인해, 특정 입력 체인 또는 대화의 부분에 대해 잘 정의된 작업을 수행하기 위해 호출되는 특화된 모델인 'intrinsics'를 구축할 수 있다. aLoRA 기반 intrinsics 모델을 학습시켜, 표준 LoRA와 경쟁력 있는 정확도를 보이면서 추론 효율성을 크게 향상시켰다. aLoRA 구현은 Huggingface PEFT 라이브러리에 기여되었다.