ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Created by

Haebom

저자

Jingwei Zuo, Xinze Feng, Zien Liu, Kaijian Wang, Fanjiang Ye, Ye Cao, Zhuang Wang, Yuke Wang

💡 개요

대규모 언어 모델 미세 조정을 위한 효율적인 기법으로 각광받는 LoRA는 하이퍼파라미터 설정에 매우 민감하여 고품질 어댑터 학습을 위해 체계적인 튜닝이 필요합니다. 본 논문에서는 다수의 이기종 LoRA 튜닝 작업을 효율적으로 관리하기 위한 시스템인 ALTO를 제안합니다. ALTO는 공유되는 Frozen Backbone을 활용하여 동시 튜닝 작업 간의 최적화 기회를 포착하며, 손실 궤적 모니터링, 융합 그룹 GEMM 및 새로운 랭크-로컬 어댑터 병렬 처리, 작업 내/작업 간 스케줄링을 통해 GPU 활용도를 극대화하고 튜닝 속도를 향상시킵니다.

🔑 시사점 및 한계

•

이기종 LoRA 작업 간 협업 최적화: 동시 진행되는 여러 LoRA 튜닝 작업이 공유되는 Frozen Backbone을 활용할 때 발생하는 최적화 기회를 포착하고 이를 통해 시스템 전체의 효율성을 높일 수 있음을 입증했습니다.

•

자원 효율성 극대화: 손실 궤적을 통한 조기 종료, 융합 연산 및 병렬 처리 기법을 활용하여 GPU 자원의 낭비를 줄이고 활용도를 크게 향상시켰습니다.

•

추후 과제: 이기종 LoRA 작업의 예측 가능한 작업 시간을 활용한 스케줄링 전략은 효과적이지만, 실제 다양한 종류의 작업과 복잡한 의존성을 가진 환경에서의 스케줄링 최적화는 여전히 탐구할 가치가 있습니다.

PDF 보기

Made with Slashpage