Sign In

zFLoRA: Zero-Latency Fused Low-Rank Adapters

Created by
  • Haebom
Category
Empty

저자

Dhananjaya Gowda, Seoha Song, Harshith Goka, Junhyun Lee

개요

본 논문은 여러 다운스트림 애플리케이션에 맞게 task-specific 어댑터를 사용하는 대규모 언어 모델(LLM)에서 어댑터의 추론 시간 오버헤드가 크다는 점을 지적하고, 이를 해결하기 위해 기본 모델에 거의 또는 전혀 지연 시간을 추가하지 않는 새로운 zero-latency fused low-rank adapter (zFLoRA)를 제안합니다. 1B, 3B, 7B 크기의 LLM에 대한 실험 결과는 zFLoRA가 LoRA 및 전체 미세 조정(FFT)을 포함한 인기 있는 지도 학습 미세 조정 벤치마크와 비교하여 우수함을 보여줍니다. 실험은 상식 추론, 수학 추론 및 요약-대화의 세 가지 범주에 걸쳐 18가지 다른 작업에 대해 수행되었습니다. NPU(Samsung Galaxy S25+) 및 GPU(NVIDIA H100) 플랫폼에서 측정한 지연 시간은 제안된 zFLoRA 어댑터가 제로에 가까운 지연 시간 오버헤드를 도입함을 보여줍니다.

시사점, 한계점

시사점:
LLM 어댑터 사용 시 발생하는 추론 시간 오버헤드를 효과적으로 줄이는 새로운 방법론 제시.
다양한 작업 및 플랫폼(NPU, GPU)에서 우수한 성능 입증.
LoRA, FFT와 비교하여 경쟁력 있는 성능을 보임.
한계점:
구체적인 zFLoRA 구현 방식 및 알고리즘에 대한 상세 정보 부족.
실험에 사용된 작업 및 모델 크기가 제한적일 수 있음.
다른 LLM 아키텍처 및 작업에 대한 일반화 가능성 추가 연구 필요.
👍