Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

Created by
  • Haebom
Category
Empty

저자

Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun

개요

본 논문은 현실적인 환경 시뮬레이션을 위한 물리적 힘을 제어 신호로 활용하는 비디오 생성 모델 연구를 제시한다. 특히, 사용자가 로컬 포인트 힘(예: 식물 찌르기)과 전역 풍력(예: 천에 부는 바람)을 통해 이미지와 상호 작용할 수 있는 힘 프롬프트를 제안한다. 3D 에셋이나 물리 시뮬레이터 없이 사전 훈련된 모델의 시각적 및 동작 prior을 활용하여 현실적인 물리적 상호 작용을 생성한다. Blender를 사용하여 생성된 비디오에서 추출한 제한된 데이터로도 다양한 형상, 환경 및 재료에서 힘을 시뮬레이션할 수 있음을 입증하며, 시각적 다양성과 특정 텍스트 키워드 사용이 일반화에 중요한 역할을 함을 밝힌다.

시사점, 한계점

시사점:
물리적 힘을 제어 신호로 사용하여 비디오 생성 모델의 현실적인 상호 작용을 가능하게 함.
3D 에셋이나 물리 시뮬레이터 없이 사전 훈련된 모델의 지식을 활용하여 효율적인 학습 가능성을 제시.
제한된 데이터로도 다양한 환경과 객체에 대한 일반화 능력을 입증.
시각적 다양성과 텍스트 키워드의 중요성을 밝힘.
모든 데이터, 코드, 가중치 및 인터랙티브 데모를 공개하여 연구 재현성을 높임.
한계점:
고품질의 paired force-video 훈련 데이터 확보의 어려움 (실제 세계 및 시뮬레이션 모두).
훈련 데이터의 양적 한계 (약 15k training examples).
A100 GPU 4개로 단 하루의 훈련 시간.
Blender를 이용한 데이터 생성의 한계 (시뮬레이션 정확도 및 다양성).
👍