Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

Created by
  • Haebom

저자

Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun

개요

본 논문은 물리적 힘을 제어 신호로 사용하여 비디오 생성을 연구하고, 사용자가 국소적인 점 힘(식물을 찌르는 것)과 전역적인 바람 힘장(천에 부는 바람)을 통해 이미지와 상호 작용할 수 있도록 하는 힘 프롬프트(force prompts)를 제안합니다. 사전 훈련된 모델의 시각 및 운동 사전 정보를 활용하여 추론 시 3D 자산이나 물리 시뮬레이터 없이도 비디오가 물리적 제어 신호에 현실적으로 반응하도록 합니다. 제한된 훈련 데이터(약 1,5000개 예시)를 사용하여 Blender로 합성된 비디오로부터 물리적 힘 조건을 따르도록 모델을 적응시켰으며, 다양한 기하학적 형태, 설정 및 재료에 걸쳐 힘을 시뮬레이션하는 비디오를 생성합니다. 일반화의 원인을 분석하여 시각적 다양성과 특정 키워드 사용이 중요함을 밝혔습니다. 제안된 방법은 기존 방법보다 힘 준수 및 물리적 현실성 면에서 우수한 성능을 보이며, 데이터셋, 코드, 가중치 및 대화형 비디오 데모를 공개합니다.

시사점, 한계점

시사점:
물리적 힘을 제어 신호로 사용하여 현실적인 상호 작용이 가능한 비디오 생성 모델을 제시.
3D 자산이나 물리 시뮬레이터 없이도 물리적 힘에 대한 현실적인 반응을 생성.
제한된 훈련 데이터로도 우수한 일반화 성능을 달성.
다양한 기하학적 형태, 설정 및 재료에 대한 힘 시뮬레이션 가능.
모든 데이터셋, 코드, 가중치 및 대화형 비디오 데모 공개.
한계점:
고품질 힘-비디오 쌍 데이터 확보의 어려움 (실제 세계 및 합성 데이터 모두).
훈련 데이터의 양이 제한적 (약 15,000개 예시).
일반화 성능의 원인에 대한 추가 연구 필요.
👍