본 논문은 텍스트-비디오(T2V) 확산 모델의 텍스트 프롬프트와 생성 비디오 간의 불일치 문제를 해결하기 위해, 모델에 독립적이고 학습이 필요 없는 비디오 개선 프레임워크인 VideoRepair를 제안합니다. VideoRepair는 두 단계로 구성됩니다. 첫 번째 단계인 비디오 개선 계획 단계에서는 미세한 평가 질문을 생성하고 MLLM을 사용하여 답변함으로써 불일치를 감지하고, 정확하게 생성된 객체를 식별하여 불일치 영역을 정밀하게 수정하는 지역화된 프롬프트를 구성합니다. 두 번째 단계인 지역화된 수정 단계에서는 Region-Preserving Segmentation (RPS) 모듈을 사용하여 프레임 단위 영역 분해를 통해 불일치 영역을 수정하면서 정확하게 생성된 영역은 보존합니다. EvalCrafter와 T2V-CompBench 벤치마크에서 VideoRepair는 다양한 텍스트-비디오 정렬 지표에서 최신 기준 모델보다 성능이 훨씬 뛰어납니다.