OminiControl은 Diffusion Transformer (DiT) 아키텍처에 이미지 조건을 통합하는 새로운 접근 방식입니다. 기존 방법들은 상당한 파라미터 오버헤드를 발생시키거나 특정 제어 작업에만 효과적이어서 실용적인 다용성이 제한적이었습니다. OminiControl은 최소한의 아키텍처 설계(DiT의 VAE 인코더 및 트랜스포머 블록 활용, 추가 파라미터 0.1%), 통합된 시퀀스 처리 전략(조건 토큰과 이미지 토큰 결합), 그리고 동적 위치 인코딩 메커니즘(공간 정렬 및 비정렬 제어 작업에 적응)이라는 세 가지 혁신을 통해 이러한 한계를 해결합니다. 다양한 조건화 작업에서 기존 특수화된 방법들의 성능을 능가하는 결과를 보였습니다. 또한, 주제 중심 생성의 데이터 제약을 극복하기 위해 DiT 모델 자체를 사용하여 합성된 대규모 ID 일관성 이미지 쌍 데이터셋 Subjects200K를 소개합니다. 이 연구는 아키텍처 복잡성 없이 효과적인 이미지 제어를 달성할 수 있음을 보여주며, 효율적이고 다용성 있는 이미지 생성 시스템에 대한 새로운 가능성을 제시합니다.