Concat-ID는 신원을 보존하는 비디오 생성을 위한 통합 프레임워크입니다. Variational Autoencoders를 사용하여 이미지 특징을 추출하고, 이를 시퀀스 차원을 따라 비디오 잠재 변수와 연결합니다. 추가 모듈 없이 3D 자기 주의 메커니즘만을 활용합니다. 새로운 비디오 간 쌍 생성 전략과 다단계 훈련 방식을 통해 신원 일관성과 얼굴 편집 가능성의 균형을 맞추면서 비디오 자연스러움을 향상시킵니다. 광범위한 실험을 통해 Concat-ID가 단일 및 다중 신원 생성 모두에서 기존 방법보다 우수하며, 가상 시착 및 배경 제어 가능한 생성을 포함한 다중 주체 시나리오로의 원활한 확장성을 보여줍니다. Concat-ID는 신원 보존 비디오 합성을 위한 새로운 기준을 제시하며, 광범위한 응용 프로그램에 대한 다용성 있고 확장 가능한 솔루션을 제공합니다.