Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ZipAR: Parallel Auto-regressive Image Generation through Spatial Locality

Created by
  • Haebom

저자

Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

개요

본 논문은 자기회귀(AR) 방식의 이미지 생성 속도를 높이기 위한 훈련이 필요 없는 플러그 앤 플레이 병렬 디코딩 프레임워크인 ZipAR을 제안합니다. 이미지는 국소 구조를 가지고 있으며 공간적으로 먼 영역은 상호 의존성이 최소화된다는 점에 착안하여 개발되었습니다. 부분적으로 디코딩된 시각 토큰 집합이 주어지면, 기존의 행 차원에서의 다음 토큰 예측 방식 외에, 열 차원에서 공간적으로 인접한 영역에 해당하는 토큰들을 병렬로 디코딩하여 "다음 집합 예측" 패러다임을 가능하게 합니다. 단일 순전파에서 여러 토큰을 동시에 디코딩함으로써 이미지 생성에 필요한 순전파 횟수를 크게 줄여 생성 효율을 상당히 향상시킵니다. 실험 결과, ZipAR은 추가적인 재훈련 없이 Emu3-Gen 모델에서 모델 순전파 횟수를 최대 91%까지 줄일 수 있음을 보여줍니다. 코드는 https://github.com/ThisisBillhe/ZipAR 에서 이용 가능합니다.

시사점, 한계점

시사점:
자기회귀 방식 이미지 생성 모델의 속도를 획기적으로 향상시킬 수 있는 새로운 병렬 디코딩 프레임워크 제시
추가적인 훈련 없이 기존 모델에 적용 가능한 플러그 앤 플레이 방식 채택
이미지의 국소 구조 특성을 효과적으로 활용하여 계산 효율성 증대
Emu3-Gen 모델에서 최대 91%의 순전파 횟수 감소 효과 확인
한계점:
제시된 방법이 모든 AR 이미지 생성 모델에 동일한 효과를 보일지는 추가적인 연구가 필요
특정 모델(Emu3-Gen)에 대한 실험 결과만 제시되어 일반화 가능성에 대한 검증 부족
열 차원의 병렬 디코딩이 이미지의 모든 종류에 효율적인지에 대한 추가적인 분석 필요
👍