LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning

Author

Haebom

저자

Haotian Zhang, Liu Liu, Baosheng Yu, Jiayan Qiu, Yanwei Ren, Xianglong Liu

개요

본 논문은 대규모 사전 학습 모델을 다양한 하위 작업에 적용하는 데 드는 계산 부하를 크게 줄여주는 매개변수 효율적인 미세 조정 방법의 등장에도 불구하고, 기존 접근 방식은 도메인 이동 시 강력한 성능을 달성하는 데 어려움을 겪는다는 점을 지적합니다. 이 문제를 해결하기 위해, 본 논문은 동적 제약 조건을 저차원 적응 방법에 통합하는 저차원 규제 기울기 투영(LARGO) 알고리즘을 제안합니다. LARGO는 병렬로 훈련 가능한 기울기 투영을 통합하여 계층별 업데이트를 동적으로 조절하여 사전 학습된 모델의 Out-Of-Distribution(OOD) 강건성을 유지하면서 계층 간 독립성을 유지합니다. 또한 가중치 업데이트 중 계층 간 기울기 의존성의 영향을 완화하여 계산 효율성을 보장합니다. 더불어, 사전 학습된 가중치의 특이값 분해(SVD)를 활용하여 구조화된 초기화를 통해 사전 학습된 지식과의 편차를 최소화하는 SVD 기반 초기화 전략을 통합합니다. 다양한 벤치마크에 대한 광범위한 실험을 통해 LARGO는 도메인 내 및 도메인 외 시나리오에서 최첨단 성능을 달성하여 기존 PEFT 방법에 비해 훨씬 낮은 계산 오버헤드로 도메인 이동 시 개선된 강건성을 보여줍니다. 소스 코드는 곧 공개될 예정입니다.

시사점, 한계점

•

시사점:

◦

저차원 적응 방법에 동적 제약 조건을 통합하여 도메인 이동에 대한 강건성을 향상시켰습니다.

◦

계층 간 기울기 의존성의 영향을 완화하여 계산 효율성을 높였습니다.

◦

SVD 기반 초기화 전략을 통해 사전 학습된 지식을 효과적으로 활용했습니다.

◦

도메인 내 및 도메인 외 시나리오에서 최첨단 성능을 달성했습니다.

•

한계점:

◦

소스 코드가 아직 공개되지 않았습니다.

◦

다양한 하위 작업 및 도메인에 대한 일반화 성능에 대한 추가적인 검증이 필요합니다.

◦

LARGO 알고리즘의 매개변수 조정에 대한 자세한 분석이 부족합니다.

PDF 보기

Made with Slashpage