Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Created by
  • Haebom

저자

Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu

개요

DreamActor-M1은 기존 이미지 기반 인체 애니메이션 방법의 한계인 세밀한 제어, 다양한 크기 적응성, 장기간 일관성 문제를 해결하기 위해 제안된 확산 트랜스포머(DiT) 기반 프레임워크입니다. 암묵적 얼굴 표현, 3D 머리 구체, 3D 신체 골격을 통합한 하이브리드 제어 신호를 사용하여 얼굴 표정과 신체 움직임을 강력하게 제어하고 표현력이 풍부하며 신원을 유지하는 애니메이션을 생성합니다. 다양한 자세와 초상화부터 전신까지 다양한 이미지 크기를 처리하기 위해 다양한 해상도와 크기의 데이터를 사용한 점진적 학습 전략을 채택했습니다. 또한, 연속 프레임의 움직임 패턴과 보완적인 시각적 참조를 통합하여 복잡한 움직임 중 보이지 않는 영역에서도 장기간의 시간적 일관성을 보장합니다. 실험 결과, DreamActor-M1은 최첨단 방법보다 우수한 성능을 보이며 초상화, 상체, 전신 생성에 대해 표현력이 풍부하고 장기간 일관성이 뛰어난 결과를 제공합니다.

시사점, 한계점

시사점:
기존 이미지 기반 인체 애니메이션 방법의 한계점인 세밀한 제어, 다양한 크기 적응성, 장기간 시간적 일관성 문제를 효과적으로 해결.
하이브리드 제어 신호를 통해 얼굴 표정과 신체 움직임의 강력하고 표현력 있는 제어 가능.
점진적 학습 전략을 통해 다양한 자세와 이미지 크기에 대한 적응성 향상.
보완적인 시각적 참조를 통합하여 장기간 시간적 일관성 확보.
초상화, 상체, 전신 생성에서 최첨단 성능 달성.
한계점:
논문에서 명시적으로 언급된 한계점은 없음. 추가적인 실험 및 분석을 통해 한계점을 탐색할 필요가 있음. 예를 들어, 특정 유형의 복잡한 움직임이나 비정형적인 포즈에 대한 일반화 성능, 계산 비용 등이 추가적인 연구가 필요한 부분일 수 있음.
👍