LoRA-Pro: Are Low-Rank Adapters Properly Optimized?
Created by
Haebom
Category
Empty
저자
Zhengbo Wang, Jian Liang, Ran He, Zilei Wang, Tieniu Tan
개요
본 논문은 매개변수 효율적인 기초 모델 미세 조정 방법으로 널리 사용되는 LoRA(Low-rank Adaptation)의 성능 향상을 위한 새로운 방법인 LoRA-Pro를 제시합니다. LoRA는 계산 효율성이 높지만, 전체 미세 조정에 비해 성능이 떨어지는 단점이 있습니다. 본 논문에서는 LoRA의 최적화 과정과 전체 미세 조정의 최적화 과정 간의 기본적인 연관성을 밝히고, LoRA의 최적화 과정이 저계층 기울기를 사용한 전체 미세 조정과 수학적으로 동등함을 보여줍니다. 이러한 통찰력을 바탕으로, 저계층 행렬의 기울기를 전략적으로 조정하여 LoRA의 성능을 향상시키는 LoRA-Pro를 제안합니다. LoRA-Pro는 저계층 기울기가 전체 미세 조정 기울기를 더 정확하게 근사하도록 하여 LoRA와 전체 미세 조정 간의 성능 차이를 줄입니다. 또한, 저계층 행렬의 기울기를 조정하기 위한 최적의 해를 이론적으로 유도하고, LoRA-Pro의 미세 조정 과정에 적용합니다. 자연어 이해, 대화 생성, 수학적 추론, 코드 생성, 이미지 분류 작업에 대한 광범위한 실험을 통해 LoRA-Pro가 LoRA의 성능을 상당히 향상시키고 전체 미세 조정과의 성능 차이를 효과적으로 줄임을 보여줍니다. 코드는 https://github.com/mrflogs/LoRA-Pro 에서 공개적으로 이용 가능합니다.