본 논문은 대규모 언어 모델(LLM)의 효율적인 배포를 위한 하드웨어 인식 후처리 양자화(HALO) 프레임워크를 제안합니다. 기존 양자화 방법론이 하드웨어 특성을 고려하지 않고 비트 너비 제약에만 국한되는 문제를 해결하기 위해, HALO는 곱셈-누산(MAC) 유닛의 타이밍 동작 및 에너지 프로파일을 포함한 상세한 하드웨어 특성을 양자화 과정에 통합합니다. 이를 통해 동작 주파수 향상 및 에너지 절약을 가능하게 하며, TPU 및 GPU와 같은 가속기에서 270%의 성능 향상 및 51%의 에너지 절약 효과를 달성합니다.