본 논문은 전자상거래 및 디지털 마케팅에서 효과적인 제품 홍보를 위해 고품질의 인간-제품 시연 비디오 생성의 중요성을 강조합니다. 기존 프레임워크는 인간과 제품의 정체성을 모두 유지하지 못하거나 인간-제품 공간적 관계에 대한 이해가 부족하여 비현실적인 표현과 부자연스러운 상호 작용을 초래하는 문제점을 가지고 있습니다. 이를 해결하기 위해 본 논문에서는 Diffusion Transformer (DiT) 기반 프레임워크를 제안합니다. 제안된 방법은 쌍으로 이루어진 인간-제품 참조 정보를 주입하고 추가적인 masked cross-attention 메커니즘을 활용하여 인간의 정체성과 제품의 로고, 질감과 같은 세부 정보를 동시에 유지합니다. 3D 신체 메시 템플릿과 제품 바운딩 박스를 사용하여 정확한 모션 가이드를 제공하여 손 제스처와 제품 배치를 직관적으로 정렬합니다. 또한, 구조화된 텍스트 인코딩을 사용하여 카테고리 수준의 의미를 통합하여 프레임 간의 작은 회전 변화 동안 3D 일관성을 향상시킵니다. 광범위한 데이터 증강 전략을 사용하여 하이브리드 데이터셋으로 훈련된 본 논문의 접근 방식은 인간과 제품의 정체성 무결성을 유지하고 현실적인 시연 모션을 생성하는 데 있어 최첨단 기술을 능가합니다.
시사점, 한계점
•
시사점:
◦
인간과 제품의 정체성을 동시에 유지하는 고품질의 인간-제품 시연 비디오 생성 가능
◦
3D 신체 메시 템플릿과 제품 바운딩 박스를 활용한 정확한 모션 가이드 제공으로 자연스러운 상호 작용 구현