Kristjan Greenewald, Luis Lastras, Thomas Parnell, Vraj Shah, Lucian Popa, Giulio Zizzo, Chulaka Gunasekara, Ambrish Rawat, David Cox
개요
본 논문은 대규모 기초 모델의 가중치 미세 조정을 위한 고효율 프레임워크인 LoRA(Low-Rank Adaptation)의 비효율적인 멀티턴 설정 문제를 해결하기 위해 aLoRA(Activated LoRA)를 제안합니다. 기존 LoRA는 멀티턴 설정에서 관련 LoRA 간 전환 시 전체 턴 히스토리의 KV 캐시를 재계산해야 하는 비효율성을 가지는데, aLoRA는 aLoRA 호출 후 시퀀스의 토큰에 대해서만 가중치를 적용함으로써 이 문제를 해결합니다. 이를 통해 기본 모델의 KV 캐시를 활용하여 캐시 재계산 없이 aLoRA를 즉시 활성화할 수 있습니다. 본 논문에서는 aLoRA 기반의 intrinsics 모델을 훈련하여 표준 LoRA와 비슷한 정확도를 달성하면서 추론 속도를 크게 향상시켰음을 보여줍니다. 코드는 https://github.com/IBM/activated-lora 에서 확인할 수 있습니다.