본 논문은 여러 다운스트림 애플리케이션에 맞게 task-specific 어댑터를 사용하는 대규모 언어 모델(LLM)에서 어댑터의 추론 시간 오버헤드가 크다는 점을 지적하고, 이를 해결하기 위해 기본 모델에 거의 또는 전혀 지연 시간을 추가하지 않는 새로운 zero-latency fused low-rank adapter (zFLoRA)를 제안합니다. 1B, 3B, 7B 크기의 LLM에 대한 실험 결과는 zFLoRA가 LoRA 및 전체 미세 조정(FFT)을 포함한 인기 있는 지도 학습 미세 조정 벤치마크와 비교하여 우수함을 보여줍니다. 실험은 상식 추론, 수학 추론 및 요약-대화의 세 가지 범주에 걸쳐 18가지 다른 작업에 대해 수행되었습니다. NPU(Samsung Galaxy S25+) 및 GPU(NVIDIA H100) 플랫폼에서 측정한 지연 시간은 제안된 zFLoRA 어댑터가 제로에 가까운 지연 시간 오버헤드를 도입함을 보여줍니다.