Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RandAR: Decoder-only Autoregressive Visual Generation in Random Orders

Created by
  • Haebom

저자

Ziqi Pang, Tianyuan Zhang, Fujun Luan, Yunze Man, Hao Tan, Kai Zhang, William T. Freeman, Yu-Xiong Wang

개요

RandAR은 임의의 토큰 순서로 이미지를 생성할 수 있는 디코더 전용 시각적 자기회귀(AR) 모델입니다. 기존의 디코더 전용 AR 모델들은 미리 정의된 생성 순서에 의존하는 반면, RandAR은 이러한 귀납적 편향을 제거하여 디코더 전용 생성에서 새로운 기능을 제공합니다. 핵심 설계는 예측할 다음 이미지 토큰 앞에 공간적 위치를 나타내는 "위치 지시 토큰"을 삽입하여 임의 순서를 가능하게 합니다. 무작위로 순열된 토큰 시퀀스(고정 순서 생성보다 더 어려운 작업)로 훈련된 RandAR은 기존의 래스터 순서 모델과 비교할 만한 성능을 달성합니다. 더 중요한 것은, 무작위 순서로 훈련된 디코더 전용 트랜스포머는 새로운 기능을 획득한다는 것입니다. AR 모델의 효율성 병목 현상을 해결하기 위해 RandAR은 추론 시 KV-Cache를 사용한 병렬 디코딩을 채택하여 생성 품질을 떨어뜨리지 않고 2.5배의 속도 향상을 제공합니다. 또한 RandAR은 제로샷 방식으로 inpainting, outpainting 및 해상도 외삽을 지원합니다.

시사점, 한계점

시사점:
디코더 전용 시각적 생성 모델에 대한 새로운 방향을 제시합니다.
임의의 토큰 순서로 이미지 생성이 가능하여 기존 모델의 한계를 극복합니다.
병렬 디코딩을 통해 추론 속도를 2.5배 향상시켰습니다.
제로샷 방식으로 inpainting, outpainting, 해상도 외삽을 지원합니다.
한계점:
논문에서는 구체적인 한계점이 명시적으로 언급되지 않았습니다. 추가적인 실험 및 분석을 통해 RandAR의 성능 한계나 특정 이미지 유형에 대한 취약성 등이 밝혀질 필요가 있습니다.
임의 순서 생성의 장점을 명확하게 제시하고, 기존의 고정 순서 모델 대비 실질적인 이점을 더 구체적으로 분석할 필요가 있습니다.
👍