Qronos는 신경망 가중치를 순차적으로 반올림하고 업데이트하는 최첨단 사후 훈련 양자화 알고리즘입니다. 가중치 및 활성화 양자화로 인한 오류뿐만 아니라 이전 레이어를 양자화하여 발생하는 오류도 명시적으로 수정합니다. 기존의 데이터 기반 접근 방식을 포함하고 능가하는 해석 가능하고 규율 있는 최적화 프레임워크를 기반으로 하는 반복 알고리즘이며, 각 단계에서 오류 수정과 최적 업데이트 규칙을 통한 확산을 번갈아 수행합니다. 최소 제곱 문제를 해결하기 위해 콜레스키 분해를 사용하는 효율적인 구현이 가능하다는 점이 증명되었으며, 아다마르 기반 비결합 처리 및 가중치-활성화 스케일링 평등화 등 기존 변환 기술과의 호환성도 입증되었습니다. Llama3 계열의 최신 자기 회귀 언어 생성 모델을 사용하여 평가한 결과, 가중치, 활성화 및/또는 KV 캐시를 양자화할 때 기존 최첨단 적응형 반올림 방법보다 일관되게 우수한 성능을 보였습니다.