본 논문은 대규모 언어 모델(LLM)의 효율적인 서비스를 위한 저정밀 계산 가속화에 초점을 맞추고 있다. 기존의 저정밀 계산 방법들은 2의 제곱수로 제한된 비트 너비와 고수준 GPU 프로그래밍 추상화로 인한 성능 저하 문제를 가지고 있다. 이를 해결하기 위해, 본 논문에서는 임의의 비트 너비를 지원하는 저정밀 데이터 타입을 위한 가상 머신(VM)을 제안한다. 제안된 VM은 스레드 블록 수준의 프로그래밍 모델, 계층적 메모리 공간, 새로운 대수적 레이아웃 시스템, 그리고 다양한 저정밀 데이터 타입에 대한 광범위한 지원 기능을 제공한다. VM 프로그램은 자동 벡터화 및 명령어 선택을 통해 고효율 GPU 프로그램으로 컴파일된다. 실험 결과, 제안된 VM은 다양한 저정밀 데이터 타입을 효율적으로 지원하며, 기존의 최첨단 저정밀 커널들을 성능 면에서 능가함을 보여준다.