본 논문은 확산 모델의 계산 비용을 줄이기 위해, 사전 훈련된 모델을 재훈련 없이 양자화하는 새로운 방법인 SegQuant를 제안합니다. SegQuant는 모델 구조의 의미와 공간적 이질성을 포착하는 SegLinear와 생성 결과의 시각적 충실도를 유지하는 데 중요한 극성 비대칭 활성화를 보존하는 DualScale을 결합하여 다양한 모델에 적용 가능한 통합 양자화 프레임워크를 제공합니다. 기존 PTQ 방법의 일반화 및 산업 배포 파이프라인과의 통합 문제를 해결하고자 합니다.
시사점, 한계점
•
시사점:
◦
기존 PTQ 방법의 한계를 극복하는, 모델 구조에 독립적인 통합 양자화 프레임워크 SegQuant 제시
◦
Transformer 기반 확산 모델 뿐 아니라 다양한 모델에 적용 가능성 증명
◦
주요 배포 도구와의 원활한 호환성 확보
◦
생성 결과의 시각적 충실도 유지
•
한계점:
◦
SegQuant의 성능이 다른 최첨단 PTQ 방법들과 비교하여 얼마나 우수한지에 대한 구체적인 실험 결과 제시 부족 (추정)