본 논문은 대규모 언어 모델(LLM)의 추론 효율성 향상을 위해 삼항 언어 모델(TriLM)을 제안합니다. GPU 아키텍처의 발전에도 불구하고 메모리 대역폭 및 용량의 제한으로 인해 LLM 추론이 병목 현상을 겪는 문제를 해결하기 위해, 양자화 인식 훈련을 통해 메모리 요구량을 크게 줄이는 TriLM을 연구합니다. 스케일링 법칙 분석을 통해 TriLM이 모델 매개변수 확장보다 훈련 데이터 증가로부터 더 많은 이점을 얻는다는 것을 밝히고, 최대 1.2조 토큰으로 훈련된 Spectra-1.1이라는 TriLM 오픈 스위트를 소개합니다. 추론 효율 향상을 위해 새로운 2비트 및 1.6비트 삼항 가중치 패킹 기법과 TriRun이라는 GPU 커널을 제안하며, 이를 통해 기존 부동 소수점 기반 모델 대비 최대 5배의 추론 속도 향상을 달성합니다. 마지막으로 Spectra-1.1 스위트와 TriRun 추론 커널을 공개하여 TriLM의 추가 연구 및 개발을 장려합니다.