Zhenxiong Tan, Zeqing Wang, Xingyi Yang, Songhua Liu, Xinchao Wang
개요
Vision Bridge Transformer (ViBT)는 조건부 생성을 위해 설계된 Brownian Bridge Model의 대규모 구현입니다. 노이즈를 데이터로 변환하는 기존 확산 모델과 달리, Bridge Model은 입력과 출력 사이의 궤적을 직접 모델링하여 효율적인 데이터 간 변환 패러다임을 생성합니다. 200억 및 13억 개의 매개변수로 이러한 모델을 확장하여 이미지 및 비디오 변환 작업에 대한 효과를 입증합니다. 견고한 훈련을 위해 Transformer 아키텍처를 채택하고 분산 안정화 속도 일치 목표를 제안합니다. 이러한 발전은 instruction-based 이미지 편집 및 복잡한 비디오 변환을 위한 Bridge Model 확장의 강력함을 강조합니다.