Concat-ID는 신원 보존 비디오 생성을 위한 통합 프레임워크입니다. 변이 자동 인코더를 사용하여 이미지 특징을 추출하고, 이를 시퀀스 차원을 따라 비디오 잠재 변수와 연결합니다. 추가적인 매개변수나 모듈 없이 3D 자기 주의 메커니즘만을 사용하여 이러한 특징들을 통합합니다. 신원 일관성과 얼굴 편집 가능성의 균형을 맞추고 비디오 자연스러움을 향상시키기 위해 새로운 교차 비디오 짝짓기 전략과 다단계 훈련 방식을 도입했습니다. 광범위한 실험을 통해 Concat-ID가 단일 및 다중 신원 생성에서 기존 방법보다 우수하며, 가상 시착 및 배경 제어 가능한 생성을 포함한 다중 주체 시나리오에도 원활하게 확장 가능함을 보여줍니다. Concat-ID는 다양한 응용 프로그램에 대한 다용성 있고 확장 가능한 솔루션을 제공하여 신원 보존 비디오 합성에 대한 새로운 기준을 제시합니다.