본 논문은 텍스트와 이미지를 입력으로 받아 비디오를 생성하는 Text-Image-to-Video (TI2V) 생성 모델의 한계점을 극복하기 위해 MotiF라는 새로운 방법론을 제시합니다. MotiF는 광학 흐름을 이용하여 동작 히트맵을 생성하고, 동작의 강도에 따라 손실 함수의 가중치를 조정함으로써 모델이 동작이 많은 영역에 더 집중하도록 유도합니다. 기존 방법들보다 텍스트 정합도와 동작 생성 능력을 향상시키며, 기존의 모션 사전 정보를 활용하는 방법들을 보완합니다. 또한, TI2V 생성 모델 평가를 위한 다양한 벤치마크의 부족을 해결하고자 320개의 이미지-텍스트 쌍으로 구성된 TI2V Bench 데이터셋을 제시하며, 두 비디오 간의 전반적인 선호도를 평가하는 인간 평가 프로토콜을 제안합니다. TI2V Bench에서 MotiF는 9개의 오픈소스 모델보다 우수한 성능을 보이며, 평균 72%의 선호도를 달성했습니다. TI2V Bench 및 추가 결과는 https://wang-sj16.github.io/motif/ 에서 공개됩니다.