Qronos는 신경망 가중치를 순차적으로 반올림하고 업데이트하는 최첨단 사후 훈련 양자화 알고리즘입니다. 가중치 및 활성화 양자화로 인한 오류뿐만 아니라 이전 계층을 양자화하여 발생하는 오류도 명시적으로 수정합니다. 해석 가능하고 엄격한 최적화 프레임워크를 기반으로 하며, 기존의 데이터 중심 접근 방식을 포함하고 능가합니다. 각 단계에서 Qronos는 최적 업데이트 규칙을 통해 오류 수정과 확산을 번갈아 수행합니다. 최소 제곱 문제를 해결하기 위해 콜레스키 분해를 사용하는 효율적인 구현이 가능하다는 것을 증명했습니다. Hadamard 기반 비결합 처리 및 가중치-활성화 스케일링 동등화와 같은 기존 변환 기술과 호환됩니다. Llama3 계열의 최신 자기 회귀 언어 생성 모델을 사용하여 Qronos를 평가했으며, 가중치, 활성화 및/또는 KV 캐시를 양자화할 때 기존 최첨단 적응형 반올림 방법을 일관되게 능가합니다.