Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MeanFlow Transformers with Representation Autoencoders

Created by
  • Haebom
Category
Empty

저자

Zheyuan Hu, Chieh-Hsin Lai, Ge Wu, Yuki Mitsufuji, Stefano Ermon

개요

본 논문은 MeanFlow (MF) 모델의 효율적인 훈련 및 샘플링 방식을 개발하여, 계산 비용을 줄이고 성능을 향상시키는 데 초점을 맞추고 있다. 특히, Representation Autoencoder (RAE)의 잠재 공간에서 MF를 훈련시켜 훈련의 안정성을 확보하고, Consistency Mid-Training을 통해 훈련을 가속화한다. 또한, 사전 훈련된 Flow Matching teacher로부터의 증류를 통해 수렴 속도를 높이고, one-point velocity estimator를 사용한 부트스트래핑 단계를 통해 오라클 평균 흐름과의 편차를 줄인다. 이 결과, ImageNet 256에서 1-step FID 2.03을 달성하며 vanilla MF보다 성능이 향상되었고, 샘플링 GFLOPS와 전체 훈련 비용을 크게 감소시켰다. ImageNet 512에서도 경쟁력 있는 성능을 보였다.

시사점, 한계점

시사점:
RAE 잠재 공간에서의 MF 훈련을 통해 훈련 안정성과 속도 향상.
Consistency Mid-Training을 통한 훈련 안정성 확보.
Flow Matching teacher를 활용한 증류 및 one-point velocity estimator를 사용한 부트스트래핑을 통해 훈련 효율성 증가.
Guidance 필요성 제거, 훈련 설정 단순화, 훈련 및 샘플링 계산량 감소.
ImageNet 256 및 512에서 경쟁력 있는 성능 달성.
한계점:
RAE, DINO 등 별도의 사전 훈련된 모델 필요.
모델의 일반화 능력 및 다른 데이터셋에서의 성능에 대한 추가적인 연구 필요.
👍