This page organizes papers related to artificial intelligence published around the world. This page is summarized using Google Gemini and is operated on a non-profit basis. The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals
Created by
Haebom
Category
Empty
저자
Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun
개요
본 논문은 현실적인 환경 시뮬레이션을 위한 물리적 힘을 제어 신호로 활용하는 비디오 생성 모델 연구를 제시한다. 특히, 사용자가 로컬 포인트 힘(예: 식물 찌르기)과 전역 풍력(예: 천에 부는 바람)을 통해 이미지와 상호 작용할 수 있는 힘 프롬프트를 제안한다. 3D 에셋이나 물리 시뮬레이터 없이 사전 훈련된 모델의 시각적 및 동작 prior을 활용하여 현실적인 물리적 상호 작용을 생성한다. Blender를 사용하여 생성된 비디오에서 추출한 제한된 데이터로도 다양한 형상, 환경 및 재료에서 힘을 시뮬레이션할 수 있음을 입증하며, 시각적 다양성과 특정 텍스트 키워드 사용이 일반화에 중요한 역할을 함을 밝힌다.
시사점, 한계점
•
시사점:
◦
물리적 힘을 제어 신호로 사용하여 비디오 생성 모델의 현실적인 상호 작용을 가능하게 함.
◦
3D 에셋이나 물리 시뮬레이터 없이 사전 훈련된 모델의 지식을 활용하여 효율적인 학습 가능성을 제시.
◦
제한된 데이터로도 다양한 환경과 객체에 대한 일반화 능력을 입증.
◦
시각적 다양성과 텍스트 키워드의 중요성을 밝힘.
◦
모든 데이터, 코드, 가중치 및 인터랙티브 데모를 공개하여 연구 재현성을 높임.
•
한계점:
◦
고품질의 paired force-video 훈련 데이터 확보의 어려움 (실제 세계 및 시뮬레이션 모두).