본 논문은 대규모 언어 모델(LLM)의 효율적인 구현을 위한 새로운 도메인 특화 언어(DSL)인 Tilus를 제안합니다. LLM 서빙은 많은 컴퓨팅 자원을 필요로 하며, 저정밀 계산은 자원 소모를 줄이는 효과적인 방법입니다. 기존의 저정밀 커널 생성 방법은 2의 제곱수로 제한된 비트 너비를 가지며, 고수준 GPU 프로그래밍 추상화로 인해 최적의 성능을 내지 못하는 한계가 있습니다. Tilus는 1~8비트의 임의 비트 너비를 지원하는 저정밀 데이터 타입을 지원하며, 스레드 블록 수준 프로그래밍 모델, 계층적 메모리 공간, 새로운 대수적 레이아웃 시스템 등을 특징으로 합니다. 자동 벡터화 및 명령어 선택을 통해 효율적인 GPU 프로그램으로 컴파일되며, Triton, Ladder, QuantLLM, Marlin 등 기존 방법들보다 우수한 성능을 보입니다.