DiffBlender: Composable and Versatile Multimodal Text-to-Image Diffusion Models
Created by
Haebom
저자
Sungnyun Kim, Junsoo Lee, Kibeom Hong, Daesik Kim, Namhyuk Ahn
개요
본 논문은 텍스트 기반 이미지 생성(T2I) 확산 모델의 성능 향상을 위해 텍스트 외 다양한 모달리티를 통합하는 방법을 제시합니다. 구체적으로, 기존의 조건부 입력들을 구조(structure), 레이아웃(layout), 속성(attribute) 세 가지 모달리티로 분류하고, 이들을 단일 아키텍처 내에서 처리하는 다모달 T2I 확산 모델인 DiffBlender를 제안합니다. 기존의 사전 훈련된 확산 모델의 파라미터를 수정하지 않고, 일부 구성 요소만 업데이트하여 세 가지 모달리티를 모두 처리할 수 있도록 설계되었습니다. 다양한 정량적 및 정성적 비교를 통해 기존 조건부 생성 방법들에 비해 새로운 기준을 제시하며, 여러 정보원을 효과적으로 통합하고 세부적인 이미지 합성에 다양한 응용이 가능함을 보여줍니다. 코드와 데모는 https://github.com/sungnyun/diffblender 에서 확인할 수 있습니다.