Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

JetFormer: An Autoregressive Generative Model of Raw Images and Text

Created by
  • Haebom

저자

Michael Tschannen, Andre Susano Pinto, Alexander Kolesnikov

개요

본 논문은 다양한 모달리티를 통합하는 대규모 다중 모달 모델의 최근 발전을 이끈 모델링 제약 완화 및 아키텍처 통합에 중점을 두고 있습니다. 기존의 대부분 모델이 모달리티 특화 인코더 및 디코더와 같이 별도로 훈련된 구성 요소에 의존하는 것과 달리, 본 논문에서는 이미지와 텍스트의 결합 생성 모델링을 더욱 간소화하는 JetFormer를 제안합니다. JetFormer는 사전 훈련된 구성 요소 없이 원시 데이터의 가능도를 직접 극대화하도록 훈련된 자동 회귀 디코더 전용 트랜스포머로, 텍스트와 이미지 모두를 이해하고 생성할 수 있습니다. 정규화 흐름 모델을 활용하여 소프트 토큰 이미지 표현을 얻고, 이를 자동 회귀 다중 모달 트랜스포머와 함께 훈련합니다. 정규화 흐름 모델은 추론 중 이미지 인식 작업을 위한 이미지 인코더 및 이미지 생성 작업을 위한 이미지 디코더 역할을 합니다. JetFormer는 최근 VQ-VAE 및 VAE 기반 기준 모델과 경쟁력 있는 텍스트-이미지 생성 품질을 달성하며, 강력한 이미지 이해 기능도 보여줍니다. 본 논문에서 제시된 JetFormer는 고충실도 이미지 생성과 강력한 로그 가능도 경계를 생성할 수 있는 최초의 모델입니다.

시사점, 한계점

시사점:
사전 훈련된 구성 요소 없이 이미지와 텍스트를 직접 생성하는 새로운 접근 방식 제시.
정규화 흐름 모델을 활용하여 이미지 인코딩 및 디코딩을 효율적으로 수행.
VQ-VAE 및 VAE 기반 기준 모델과 경쟁력 있는 텍스트-이미지 생성 품질 달성.
강력한 이미지 이해 기능을 보유.
고충실도 이미지 생성 및 강력한 로그 가능도 경계 생성 능력.
한계점:
본 논문에서 제시된 모델의 성능을 다른 최첨단 모델과의 보다 광범위한 비교 분석이 필요함.
정규화 흐름 모델의 복잡성 및 훈련 안정성에 대한 추가적인 연구가 필요함.
다양한 이미지 유형 및 텍스트 스타일로의 일반화 성능에 대한 추가적인 평가가 필요함.
👍