본 논문은 사전 훈련된 거대 언어 모델(LLM)을 하위 작업에 적용하는 표준 방법인 감독식 미세 조정과 효율적인 LLM 배포를 위한 후처리 기법으로 최근 연구되고 있는 양자화에 대해 다룹니다. 기존의 파이프라인은 먼저 사전 훈련된 모델을 미세 조정한 다음 후처리 양자화를 수행하지만, 이는 미세 조정과 양자화 간의 시너지를 활용하지 못하여 최적이 아닌 성능을 초래합니다. 본 논문에서는 LLM의 가중치, 활성화 및 KV 캐시의 저비트 양자화를 효과적으로 구현하기 위해, 양자화 인식 감독식 미세 조정(QA-SFT)과 활성화 이상치를 줄이기 위한 효과적인 회전 구성을 식별하는 적응형 회전 전략을 결합한 RoSTE(Rotated Straight-Through-Estimator) 알고리즘을 제안합니다. 과매개화된 최소 제곱 양자화 훈련 문제에 적용된 RoSTE의 예측 오차를 분석하여 이론적 통찰력을 제공하며, 예측 오차는 수렴된 가중치의 양자화 오차에 정비례하고, 최적화된 회전 구성을 통해 효과적으로 관리할 수 있음을 보여줍니다. Pythia, Qwen, Llama 등 다양한 크기의 모델에 대한 실험을 통해 RoSTE의 효과를 입증하고, 기존의 후-SFT 양자화 기준선과 비교하여 다양한 작업과 LLM 아키텍처에서 일관되게 우수한 성능을 달성함을 보여줍니다.