본 논문은 제한된 연산 자원을 가진 장치에서 대규모 언어 모델(LLM)을 배포하기 위한 양자화 기법인 SplitQuantV2를 제시합니다. 기존의 고급 양자화 알고리즘은 고성능 GPU를 필요로 하고 특정 DNN 프레임워크에 종속적이며, 보정 데이터셋이 필요하다는 한계점을 가지는데 반해, SplitQuantV2는 선형 및 합성곱 계층을 양자화에 적합한 구조로 분할하는 전처리 과정을 통해 고급 알고리즘에 필적하는 성능을 저사양 환경에서 달성합니다. Llama 3.2 1B Instruct 모델과 ARC 데이터셋을 이용한 실험 결과, INT4 양자화 모델의 정확도를 11.76% 향상시켜 부동소수점 모델과 유사한 성능을 보였으며, Apple M4 CPU를 사용하여 2분 6초 만에 전처리 및 양자화를 완료했습니다. 이는 GPU나 특정 프레임워크에 의존하지 않고, 다양한 NPU 및 에지 AI 장치에서 LLM의 저비트 양자화를 위한 실용적인 해결책을 제공합니다.