본 논문은 자원 제약이 있는 에지 디바이스에서 대규모 언어 모델(LLM)을 배포하기 위한 양자화 및 미세 조정의 어려움을 해결하는 새로운 방법인 LoTA-QAF(Lossless Ternary Adaptation for Quantization-Aware Fine-tuning)를 제안합니다. 기존 방법들의 주요 문제점인 저정밀 양자화 가중치와 고정밀 적응 가중치 간의 불일치, 고정밀 적응 가중치 병합 시 정확도 저하, 모든 양자화 가중치 조정을 지원하지 못하는 점 등을 해결하기 위해, LoTA-QAF는 삼항 적응 가중치를 사용하여 양자화 가중치를 손실 없이 병합하고 모든 양자화 가중치를 조정합니다. 이는 맞춤형 삼항 적응(TA), 손실 없는 적응 가중치 병합 메커니즘, 삼항 부호화 경사 하강법(t-SignSGD)을 결합하여 구현됩니다. Llama-3.1/3.3 및 Qwen-2.5 모델에 적용하여 MMLU 벤치마크 및 특정 작업 미세 조정에서 효과를 검증하였으며, 특히 MMLU 벤치마크에서 16-bit LoRA를 최대 5.14%까지 능가하는 성능을 보였습니다.