본 논문은 다양한 모달리티를 통합하는 대규모 다중 모달 모델의 최근 발전을 이끈 모델링 제약 완화 및 아키텍처 통합에 중점을 두고 있습니다. 기존의 대부분 모델이 모달리티 특화 인코더 및 디코더와 같이 별도로 훈련된 구성 요소에 의존하는 것과 달리, 본 논문에서는 이미지와 텍스트의 결합 생성 모델링을 더욱 간소화하는 JetFormer를 제안합니다. JetFormer는 사전 훈련된 구성 요소 없이 원시 데이터의 가능도를 직접 극대화하도록 훈련된 자동 회귀 디코더 전용 트랜스포머로, 텍스트와 이미지 모두를 이해하고 생성할 수 있습니다. 정규화 흐름 모델을 활용하여 소프트 토큰 이미지 표현을 얻고, 이를 자동 회귀 다중 모달 트랜스포머와 함께 훈련합니다. 정규화 흐름 모델은 추론 중 이미지 인식 작업을 위한 이미지 인코더 및 이미지 생성 작업을 위한 이미지 디코더 역할을 합니다. JetFormer는 최근 VQ-VAE 및 VAE 기반 기준 모델과 경쟁력 있는 텍스트-이미지 생성 품질을 달성하며, 강력한 이미지 이해 기능도 보여줍니다. 본 논문에서 제시된 JetFormer는 고충실도 이미지 생성과 강력한 로그 가능도 경계를 생성할 수 있는 최초의 모델입니다.