FP8과 같은 저비트 부동 소수점 형식은 최신 GPU 및 NPU에서 하드웨어 지원을 통해 모델 훈련 속도를 높이고 메모리를 절약하지만, 저차원 행렬을 사용하는 LoRA(Low-rank Adaptation)에는 양자화 오버헤드로 인해 속도 향상이 제한됩니다. 본 논문에서는 LoRA 어댑터를 FP8 양자화된 백본에 직접 병합하여 양자화 오버헤드를 제거하는 FALQON 프레임워크를 제안합니다. FALQON은 병합된 어댑터에 대한 순방향 및 역방향 계산을 재구성하고, 양자화된 백본에 대규모 업데이트를 효율적으로 통합하는 행별 프록시 업데이트 메커니즘을 도입합니다. 실험 결과 FALQON은 기존 양자화된 LoRA 방법보다 약 3배의 훈련 속도를 달성하며, 효율적인 대규모 모델 미세 조정을 위한 실용적인 솔루션을 제공합니다. 또한, FALQON의 종단간 FP8 워크플로우는 훈련 후 양자화가 필요하지 않아 효율적인 배포를 지원합니다.