PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation
Created by
Haebom
저자
Qiyao Xue, Xiangyu Yin, Boyuan Yang, Wei Gao
개요
본 논문은 변환기 기반 확산 모델을 이용한 텍스트-비디오(T2V) 생성에서 물리적 현실에 대한 이해 부족과 시간적 모델링의 결함으로 인해 현실 세계의 상식과 물리 법칙을 준수하지 못하는 한계를 지적합니다. 기존 해결책은 데이터 기반이거나 추가적인 모델 입력을 필요로 하여 분포 외 영역으로의 일반화가 어렵다는 문제점을 가지고 있습니다. 이에 본 논문에서는 PhyT2V를 제시하는데, 이는 T2V 프롬프팅에서 사고 연쇄와 단계별 추론을 가능하게 함으로써 기존 T2V 모델의 비디오 생성 능력을 분포 외 영역으로 확장하는 새로운 데이터 독립적인 T2V 기술입니다. 실험 결과, PhyT2V는 기존 T2V 모델의 현실 세계 물리 법칙 준수율을 2.3배 향상시켰으며, T2V 프롬프트 향상 기술과 비교하여 35%의 성능 향상을 달성했습니다. 소스 코드는 https://github.com/pittisl/PhyT2V 에서 확인 가능합니다.