InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models
Created by
Haebom
저자
Zhen Li, Yupeng Su, Songmiao Wang, Runming Yang, Congkai Xie, Aofan Liu, Ming Li, Jiannong Cao, Yuan Xie, Ngai Wong, Hongxia Yang
개요
본 논문은 대규모 언어 모델(LLM)의 수치 연산 정확도 저하 문제를 다룹니다. LLM의 수치 연산(mathematical reasoning) 성능 향상을 위해 양자화 기법(AWQ, GPTQ, SmoothQuant)을 적용하였으나, 최대 69.81%의 정확도 저하를 확인했습니다. 이러한 정확도 저하 원인을 분석하기 위해 오류 유형을 자동 분류하는 파이프라인을 개발하고, 정확도 저하를 해결하기 위해 선별된 332개의 예제로 구성된 "Silver Bullet" 데이터셋을 구축했습니다. 해당 데이터셋을 사용하여 단일 GPU에서 3-5분간 미세 조정한 결과, 양자화된 모델의 수치 연산 정확도를 전체 정밀도 기준 모델 수준으로 복원하는 데 성공했습니다.
시사점, 한계점
•
시사점:
◦
LLM의 양자화 과정에서 발생하는 수치 연산 정확도 저하 문제를 명확히 규명하고, 그 원인을 분석했습니다.
◦
정확도 저하 문제 해결을 위한 효과적인 데이터셋 구축 및 재훈련 방법을 제시했습니다.
◦
소규모 데이터셋을 활용하여 양자화된 LLM의 성능을 효율적으로 개선할 수 있음을 보여주었습니다.
•
한계점:
◦
"Silver Bullet" 데이터셋의 일반화 성능에 대한 추가적인 검증이 필요합니다.
◦
다양한 LLM 아키텍처 및 양자화 기법에 대한 일반화 가능성을 추가적으로 연구해야 합니다.