Jodi는 이미지 생성과 이해를 통합하는 확산 프레임워크입니다. 선형 확산 변환기와 역할 전환 메커니즘을 기반으로 이미지 영역과 여러 레이블 영역을 공동으로 모델링합니다. 세 가지 작업(1) 이미지와 여러 레이블의 동시 생성, (2) 레이블 조합을 조건으로 한 이미지 생성, (3) 이미지로부터 여러 레이블의 동시 예측)을 수행할 수 있습니다. 20만 개의 고품질 이미지와 7개 시각 영역에 대한 자동 레이블, LLM 생성 캡션을 포함하는 Joint-1.6M 데이터셋을 사용하여 실험을 진행하였으며, 생성 및 이해 작업 모두에서 우수한 성능과 확장성을 보였습니다.