Sign In

Frequency Autoregressive Image Generation with Continuous Tokens

Created by
  • Haebom
Category
Empty

저자

Hu Yu, Hao Luo, Hangjie Yuan, Yu Rong, Feng Zhao

개요

자동회귀(AR) 이미지 생성 모델은 자연어 모델의 성공에 영감을 받아 일반적으로 벡터 양자화와 래스터 스캔 "다음 토큰 예측"의 두 단계 패러다임을 채택합니다. 그러나 거대한 모달리티 차이로 인해 이미지 자동회귀 모델은 토큰화 형식과 회귀 방향이라는 두 가지 관점에서 체계적인 재평가가 필요할 수 있습니다. 본 논문에서는 주파수 진행 자동회귀(FAR) 패러다임을 소개하고 연속 토큰화기를 사용하여 FAR을 구현합니다. 특히, 본 논문에서는 고주파 성분이 저주파 성분을 기반으로 완전한 이미지를 점진적으로 구성하는 스펙트럼 의존성을 FAR에 대한 바람직한 회귀 방향으로 확인합니다. 이 설계는 자동회귀 모델에 대한 인과 관계 요구 사항에 원활하게 맞고 이미지 데이터의 고유한 공간적 지역성을 유지합니다. 또한, 본 논문에서는 FAR과 연속 토큰화기의 통합을 자세히 다루고 최적화 과제를 해결하고 훈련 및 추론 프로세스의 효율성을 개선하기 위한 일련의 기술을 소개합니다. ImageNet 데이터 세트에 대한 종합적인 실험을 통해 FAR의 효능을 보여주고 텍스트-이미지 생성에 대한 잠재력을 검증합니다.

시사점, 한계점

시사점:
주파수 진행 자동회귀(FAR) 패러다임을 통해 이미지 생성의 새로운 접근 방식을 제시합니다.
연속 토큰화기를 사용하여 이미지 데이터의 공간적 지역성을 효과적으로 활용합니다.
스펙트럼 의존성을 회귀 방향으로 활용하여 이미지 생성의 효율성과 성능을 향상시킵니다.
ImageNet 데이터셋과 텍스트-이미지 생성에서 FAR의 효능을 실험적으로 검증합니다.
한계점:
본 논문에서 제시된 방법론의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다양한 이미지 데이터셋에 대한 성능 평가가 더 필요합니다.
연속 토큰화기의 최적화 및 효율성 개선에 대한 추가적인 연구가 필요할 수 있습니다.
👍