Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Jodi: Unification of Visual Generation and Understanding via Joint Modeling

Created by
  • Haebom

저자

Yifeng Xu, Zhenliang He, Meina Kan, Shiguang Shan, Xilin Chen

개요

Jodi는 이미지 생성과 이해를 통합하는 확산 프레임워크입니다. 선형 확산 변환기와 역할 전환 메커니즘을 기반으로 이미지 영역과 여러 레이블 영역을 공동으로 모델링합니다. 세 가지 작업(1) 이미지와 여러 레이블의 동시 생성, (2) 레이블 조합을 조건으로 한 이미지 생성, (3) 이미지로부터 여러 레이블의 동시 예측)을 수행할 수 있습니다. 20만 개의 고품질 이미지와 7개 시각 영역에 대한 자동 레이블, LLM 생성 캡션을 포함하는 Joint-1.6M 데이터셋을 사용하여 실험을 진행하였으며, 생성 및 이해 작업 모두에서 우수한 성능과 확장성을 보였습니다.

시사점, 한계점

시사점:
이미지 생성과 이해를 통합하는 새로운 접근 방식 제시
제어 가능한 이미지 생성 및 다중 레이블 예측 기능 제공
다양한 시각 영역으로의 확장성 입증
고품질 데이터셋 Joint-1.6M 공개
한계점:
논문에서는 구체적인 한계점이 언급되지 않음. 추가적인 실험 및 비교 분석을 통해 한계점을 밝힐 필요가 있음.
Joint-1.6M 데이터셋의 품질 및 편향성에 대한 자세한 분석이 부족함.
다른 최첨단 모델과의 비교 분석이 더욱 심도있게 이루어져야 함.
👍