본 논문은 자원 제약이 있는 에지 디바이스(예: Raspberry Pi)에서 대규모 언어 모델(LLMs)을 배포하는 과정에서 발생하는 계산 효율, 전력 소비 및 응답 지연 문제를 해결하기 위해 양자화 기반 최적화 기법을 탐구한다. 특히, 다양한 비트 너비에 맞춰 설계된 Post-Training Quantization (PTQ) 방법인 k-양자화를 활용하여 효율적인 2비트, 4비트, 6비트 및 8비트 가중치 양자화를 수행하고, BitNet 모델에 대해서는 Quantization-Aware Training (QAT)을 사용한 3진 양자화를 통해 낮은 비트 표현에 대한 효과적인 적응을 가능하게 하면서 정확도를 유지한다. 연구 결과는 에지 디바이스에서 실시간 대화형 AI를 위한 양자화된 LLM의 잠재력을 보여주며, 모바일 및 임베디드 애플리케이션에서 저전력 고효율 AI 배포의 길을 열어준다. 공격적인 양자화 전략을 통해 에너지 소비량을 크게 줄이면서 추론 품질을 유지하여 자원 제약 환경에서 LLM을 실용적으로 만들 수 있음을 보여준다.