Duong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
개요
OneDiffusion은 다양한 작업에 걸쳐 양방향 이미지 합성 및 이해를 원활하게 지원하는 다목적 대규모 확산 모델입니다. 텍스트, 깊이, 자세, 레이아웃 및 의미 맵과 같은 입력으로부터 조건부 생성을 가능하게 하며, 이미지 디블러링, 업스케일링 및 깊이 추정, 분할과 같은 역 프로세스도 처리합니다. 또한, OneDiffusion은 다중 뷰 생성, 카메라 자세 추정 및 순차적 이미지 입력을 사용한 즉각적인 개인화를 허용합니다. 본 모델은 모든 작업을 훈련 중 다양한 노이즈 스케일을 가진 프레임 시퀀스로 취급하는 간단하면서도 효과적인 접근 방식을 취하여 추론 시 어떤 프레임이든 조건 이미지로 작용할 수 있도록 합니다. 통합된 훈련 프레임워크는 특수 아키텍처의 필요성을 제거하고, 확장 가능한 다중 작업 훈련을 지원하며, 모든 해상도에 원활하게 적응하여 일반화 및 확장성을 모두 향상시킵니다. 실험 결과는 상대적으로 작은 훈련 데이터 세트에도 불구하고 텍스트-이미지, 다중 뷰 생성, ID 보존, 깊이 추정 및 카메라 자세 추정과 같은 생성 및 예측 작업에서 경쟁력 있는 성능을 보여줍니다. 코드와 체크포인트는 https://github.com/lehduong/OneDiffusion 에서 자유롭게 이용할 수 있습니다.