본 논문은 대규모 언어 모델(LLM)의 메모리 요구사항을 줄이기 위한 효율적인 양자화 인식 학습(EfficientQAT) 알고리즘을 제안합니다. EfficientQAT는 블록 단위의 모든 매개변수 학습(Block-AP)과 양자화 매개변수의 엔드-투-엔드 학습(E2E-QP) 두 단계로 구성됩니다. Block-AP는 모든 매개변수를 블록 단위로 직접 학습하는 최초의 방법으로, 저비트 환경에서 정확도 손실을 줄입니다. E2E-QP는 모든 하위 모듈 간의 상호 작용을 고려하여 양자화 매개변수(스텝 크기)만을 엔드-투-엔드로 학습하여 성능을 향상시킵니다. 실험 결과, EfficientQAT는 7B에서 70B 파라미터의 다양한 모델(기본 LLM, 지시어 조정 LLM, 다중 모달 LLM)에서 기존 양자화 방법보다 우수한 성능을 보였습니다. 예를 들어, EfficientQAT는 단일 A100-80GB GPU에서 2-bit Llama-2-70B 모델을 41시간 만에 학습하여, 전정밀 모델 대비 정확도 저하가 3점 미만이었습니다 (69.48 vs. 72.41). 코드는 https://github.com/OpenGVLab/EfficientQAT 에서 이용 가능합니다.