본 논문은 계산 비용이 많이 드는 Diffusion Transformer (DiT)의 추론 속도를 높이기 위해 내부 표현의 중복성을 활용하는 'FastCache'라는 캐싱 및 압축 프레임워크를 제안한다. FastCache는 잠재 활성화를 재사용하는 공간 인식 토큰 선택 메커니즘과 트랜스포머 레벨 캐싱을 통해 불필요한 계산을 줄이면서도 생성 품질을 유지한다. 이를 통해 기존 캐싱 기법 대비 FID 및 t-FID 측정에서 최고의 생성 품질을 유지하며 상당한 지연 시간 및 메모리 사용량 감소를 달성했다.
🔑 시사점 및 한계
•
Diffusion Transformer (DiT)의 추론 효율성을 크게 향상시켜 실제 적용 가능성을 높인다.
•
Learnable Linear Approximation을 통해 생성 품질 저하를 최소화하면서 속도 향상을 달성한다.
•
토큰 병합 모듈을 추가하여 추가적인 속도 개선 가능성을 제시한다.
•
가설 검정 기반 결정 규칙 하에서 근사 오차의 유계성을 이론적으로 분석했지만, 실제 다양한 데이터셋 및 모델 아키텍처에서의 일반화 성능 및 특정 임계값 설정에 대한 추가적인 연구가 필요할 수 있다.