NFIG: Autoregressive Image Generation with Next-Frequency Prediction
Created by
Haebom
저자
Zhihao Huang, Xi Qiu, Yukuo Ma, Yifu Zhou, Junjie Chen, Hongyuan Zhang, Chi Zhang, Xuelong Li
개요
자기회귀 모델은 자연어 처리에서 좋은 결과를 보여주지만, 이미지 생성 작업에서는 장거리 의존성 포착, 계산 비용 관리, 그리고 자연스러운 이미지 계층 구조를 반영하는 의미 있는 자기회귀 시퀀스 정의에 어려움을 겪습니다. 본 논문에서는 이러한 문제를 해결하기 위해 이미지 생성 과정을 여러 주파수 기반 단계로 분해하는 새로운 프레임워크인 NFIG(Next-Frequency Image Generation)를 제시합니다. NFIG는 먼저 저주파 성분을 생성하여 적은 토큰으로 전역 구조를 설정한 후, 이미지의 자연스러운 스펙트럼 계층 구조를 따라 점진적으로 고주파 세부 정보를 추가합니다. 이러한 원칙에 기반한 자기회귀 시퀀스는 이미지 구성 요소 간의 실제 인과 관계를 더 잘 포착하여 생성된 이미지의 품질을 향상시킬 뿐만 아니라 추론 중 계산 오버헤드도 크게 줄입니다. 광범위한 실험을 통해 NFIG가 더 적은 단계로 최첨단 성능을 달성하여 더 효율적인 이미지 생성 솔루션을 제공함을 보여줍니다. ImageNet-256 벤치마크에서 VAR-d20보다 1.25배 빠른 속도(FID: 2.81)로 더 나은 성능을 달성했습니다. 주파수 영역 지식을 통합하여 자기회귀 시퀀스 설계를 안내하는 통찰력이 미래 연구에 도움이 될 것으로 기대합니다.
시사점, 한계점
•
시사점:
◦
이미지 생성을 위한 효율적인 새로운 프레임워크 NFIG 제시.
◦
주파수 기반 단계적 생성을 통해 장거리 의존성을 효과적으로 포착하고 계산 비용을 절감.
◦
ImageNet-256 벤치마크에서 기존 모델보다 우수한 성능(FID 2.81)과 속도(1.25배 향상) 달성.