LogQuant는 대규모 언어 모델 추론에서 KV 캐시에 대한 획기적인 2비트 양자화 기법으로, 우수한 성능을 유지하면서 상당한 메모리 절약을 제공합니다. 기존 방법들은 후속 토큰이 더 중요하다고 가정하거나 이전 어텐션 패턴을 기반으로 중요한 토큰을 예측하려고 시도하지만, 성능 병목 현상이나 빈번한 오류 예측을 초래할 수 있습니다. LogQuant는 로그 기반 필터링 메커니즘을 적용하여 전체 컨텍스트에서 KV 캐시를 선택적으로 압축하여 기존 방법과 비교하여 동일하거나 더 적은 메모리 공간으로 더 나은 성능을 달성합니다. 벤치마크 테스트에서 메모리 소비량을 늘리지 않고 처리량을 25% 향상시키고 배치 크기를 60% 향상시켰습니다. 수학 및 코드 완성과 같은 어려운 작업의 경우, 동일한 압축률에서 정확도를 40%~200% 향상시켜 유사한 기술보다 뛰어난 성능을 보였습니다. LogQuant는 Python의 transformers 라이브러리와 같은 인기 있는 추론 프레임워크와 손쉽게 통합됩니다. 구현은 https://github.com/Concyclics/LogQuantKV 에서 확인할 수 있습니다.