Learning to Generate Rigid Body Interactions with Video Diffusion Models

Created by

Haebom

저자

David Romero, Ariana Bermudez, Viacheslav Iablochnikov, Hao Li, Fabio Pizzati, Ivan Laptev

💡 개요

이 연구는 기존 비디오 생성 모델의 물리적 현실성 부족과 객체 수준 제어의 한계를 극복하기 위해 KineMask라는 새로운 접근 방식을 제안합니다. KineMask는 단일 이미지와 객체 속도를 입력받아 현실적인 강체(rigid body) 상호작용 및 움직임을 생성하는 비디오 확산 모델(VDM) 기반 방법론입니다. 객체 마스크를 활용한 점진적 학습 전략을 통해 합성 및 실제 장면에서 강체와 손-객체 상호작용을 포함한 다양한 동적 현상을 효과적으로 생성하고, 텍스트 기반 제어도 가능하게 합니다.

🔑 시사점 및 한계

•

로보틱스 및 가상 시뮬레이션에서의 현실적인 물리 상호작용 생성: KineMask는 로보틱스, 자율 주행, 게임 등에서 필요한 현실적인 물체 간의 물리적 상호작용을 비디오로 생성할 수 있는 가능성을 보여줍니다.

•

객체 수준의 정밀한 제어 및 텍스트 기반 고수준 제어 통합: 객체의 움직임을 직접 제어하는 동시에 텍스트 설명을 통해 장면의 복잡한 동적 현상을 합성할 수 있어, 생성 과정의 유연성과 다양성을 크게 높였습니다.

•

복잡한 물체 속성 및 환경에서의 일반화 성능: 본 연구는 합성 데이터로 학습한 모델이 실제 환경의 강체 및 손-객체 상호작용에 대해 우수한 일반화 성능을 보였음을 입증했으나, 더욱 복잡한 물성(예: 유체, 연성체)이나 다중 객체 간의 예측하기 어려운 상호작용에 대한 성능 향상은 향후 과제로 남습니다.

PDF 보기

Made with Slashpage