LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding
Created by
Haebom
Category
Empty
저자
Doohyuk Jang, Sihwan Park, June Yong Yang, Yeonsung Jung, Jihun Yun, Souvik Kundu, Sung-Yub Kim, Eunho Yang
개요
본 논문은 자기회귀(AR) 모델 기반 이미지 생성의 속도 저하 문제를 해결하기 위해, 기존의 순차적 토큰 생성 방식 대신, 다중 토큰 동시 생성을 가능하게 하는 투기적 디코딩(speculative decoding) 기법을 시각적 AR 모델에 적용하는 연구를 다룹니다. 하지만 시각적 AR 모델에서는 '토큰 선택 모호성(token selection ambiguity)' 문제로 인해 투기적 디코딩의 효과가 제한적임을 밝히고, 이 문제를 해결하기 위해 잠재 공간에서 토큰의 상호 교환성을 활용하는 완화된 수용 조건인 LANTERN을 제안합니다. LANTERN은 전체 변이 거리(total variation distance) 제약 조건을 통해 이미지 품질 저하 없이 속도 향상을 달성합니다. 실험 결과, LlamaGen 모델에 LANTERN을 적용하여 기존 투기적 디코딩 대비 1.75배, 탐욕적 디코딩 및 무작위 샘플링 대비 1.82배의 속도 향상을 달성했습니다.
시사점, 한계점
•
시사점:
◦
시각적 AR 모델의 속도 저하 문제 해결에 대한 새로운 접근 방식 제시 (LANTERN).
◦
투기적 디코딩의 효율성을 시각적 AR 모델에 적용 가능성을 증명.
◦
이미지 품질 저하 없이 속도 향상을 달성.
◦
공개된 코드를 통해 재현성 및 확장성 확보.
•
한계점:
◦
LANTERN의 성능은 특정 시각적 AR 모델(LlamaGen)에 대한 실험 결과에 기반. 다른 모델에 대한 일반화 가능성 검증 필요.