NFIG: Autoregressive Image Generation with Next-Frequency Prediction
Created by
Haebom
저자
Zhihao Huang, Xi Qiu, Yukuo Ma, Yifu Zhou, Junjie Chen, Hongyuan Zhang, Chi Zhang, Xuelong Li
개요
자기회귀 모델은 자연어 처리 분야에서 좋은 성과를 거두었지만, 이미지 생성 작업에서는 장거리 의존성 포착, 계산 비용 관리, 그리고 자연스러운 이미지 계층 구조를 반영하는 의미 있는 자기회귀 시퀀스 정의의 어려움과 같은 상당한 과제에 직면합니다. 본 논문에서는 이러한 문제를 해결하기 위해 이미지 생성 과정을 여러 주파수 안내 단계로 분해하는 새로운 프레임워크인 NFIG(Next-Frequency Image Generation)를 제시합니다. NFIG는 먼저 저주파 성분을 생성하여 적은 토큰으로 전역 구조를 설정한 다음, 이미지의 자연스러운 스펙트럼 계층 구조를 따라 점진적으로 고주파 세부 정보를 추가합니다. 이러한 원칙에 기반한 자기회귀 시퀀스는 이미지 구성 요소 간의 실제 인과 관계를 더 잘 포착하여 생성된 이미지의 품질을 향상시킬 뿐만 아니라 추론 중 계산 오버헤드도 크게 줄입니다. 광범위한 실험을 통해 NFIG가 더 적은 단계로 최첨단 성능을 달성하여 이미지 생성에 대한 더 효율적인 솔루션을 제공함을 보여줍니다. ImageNet-256 벤치마크에서 VAR-d20보다 1.25배 빠른 속도(FID: 2.81)로 더 나은 성능을 달성했습니다. 주파수 도메인 지식을 통합하여 자기회귀 시퀀스 설계를 안내하는 통찰력이 향후 연구에 도움이 될 것으로 기대합니다.
시사점, 한계점
•
시사점:
◦
이미지 생성을 위한 효율적인 자기회귀 프레임워크인 NFIG 제시
◦
주파수 기반의 단계적 이미지 생성을 통해 장거리 의존성 문제 해결 및 계산 비용 절감
◦
ImageNet-256 벤치마크에서 기존 모델보다 빠르고 우수한 성능 달성 (VAR-d20 대비 1.25배 속도 향상, FID 2.81)