확산 트랜스포머(DiT)는 강력한 생성 모델이지만 반복적인 구조와 깊은 트랜스포머 스택으로 인해 계산 비용이 많이 든다. 본 논문에서는 모델 내부 표현의 중복성을 활용하여 DiT 추론 속도를 높이는 은닉 상태 수준의 캐싱 및 압축 프레임워크인 FastCache를 제안한다. FastCache는 (1) 은닉 상태 중요도에 따라 중복 토큰을 적응적으로 필터링하는 공간 인식 토큰 선택 메커니즘과 (2) 변화가 통계적으로 미미할 때 시간 단계 간 잠재 활성화를 재사용하는 트랜스포머 수준 캐시라는 이중 전략을 도입한다. 이러한 모듈은 학습 가능한 선형 근사를 통해 생성 충실도를 유지하면서 불필요한 계산을 줄이기 위해 공동으로 작동한다. 이론적 분석에 따르면 FastCache는 가설 검정 기반 의사 결정 규칙에 따라 경계가 있는 근사 오차를 유지한다. 여러 DiT 변형에 대한 실험적 평가는 FID 및 t-FID로 측정했을 때 다른 캐시 방법과 비교하여 최상의 생성 출력 품질을 유지하면서 지연 시간과 메모리 사용량을 상당히 줄임을 보여준다. FastCache의 코드 구현은 https://github.com/NoakLiu/FastCache-xDiT에서 사용할 수 있다.
시사점, 한계점
•
시사점:
◦
DiT의 추론 속도를 효과적으로 향상시키는 FastCache 프레임워크 제안
◦
은닉 상태 중요도 기반의 공간 인식 토큰 선택 및 트랜스포머 수준 캐시를 통한 효율적인 중복성 제거
◦
경계가 있는 근사 오차를 유지하면서 생성 품질을 보장하는 학습 가능한 선형 근사 활용
◦
FID 및 t-FID 측정 결과 다른 캐시 방법보다 우수한 성능 입증
◦
GitHub에서 공개된 코드를 통해 재현성 및 활용성 확보
•
한계점:
◦
제안된 방법의 효율성은 특정 DiT 변형 및 데이터셋에 의존적일 수 있음. 다양한 환경에서의 일반화 성능 검증 필요.