본 논문은 2025년 최첨단(SOTA) 텍스트-비디오 생성 모델의 수 세기 능력을 평가하기 위한 새로운 벤치마크인 T2VCountBench를 제시합니다. Video LDM이나 Stable Video Diffusion과 같은 모델들이 텍스트 지시어로 사실적인 영화 수준의 비디오를 생성하는 등 텍스트-비디오 생성 분야에서 상당한 발전이 있었지만, 기존 모델들은 특히 간단한 수치 제약 조건을 준수하는 것과 같은 인간의 명령을 신뢰성 있게 따르는 데 어려움을 겪고 있습니다. T2VCountBench는 다양한 오픈소스 및 상용 모델을 포함하여 광범위한 생성 모델을 대상으로, 생성된 객체의 수를 측정하기 위한 엄격한 인간 평가를 사용합니다. 실험 결과, 기존 모델들은 기본적인 수치 작업에서 어려움을 겪으며, 대부분 9개 이하의 객체를 가진 비디오 생성에 실패하는 것으로 나타났습니다. 또한, 비디오 스타일, 시간적 역동성, 다국어 입력과 같은 요소들이 수 세기 성능에 미치는 영향을 탐구하는 포괄적인 ablation study를 수행하고, 프롬프트 개선 기법을 탐색하며, 작업을 더 작은 하위 작업으로 분해하는 것이 이러한 한계를 쉽게 완화하지 못함을 보여줍니다. 본 연구는 현재 텍스트-비디오 생성의 중요한 과제를 강조하고, 기본적인 수치 제약 조건 준수를 개선하기 위한 미래 연구에 대한 통찰력을 제공합니다.