본 논문은 주어진 내용을 충실히 반영하는 비디오 생성을 목표로 하는 Subject-to-Video (S2V) 생성을 위한 기반 시설인 OpenS2V-Nexus를 제안합니다. OpenS2V-Nexus는 세분화된 벤치마크인 OpenS2V-Eval과 백만 스케일 데이터셋인 OpenS2V-5M으로 구성됩니다. 기존의 전역적이고 조잡한 비디오 평가에 초점을 맞춘 VBench에서 상속받은 S2V 벤치마크와 달리, OpenS2V-Eval은 자연스러운 피사체 외양과 정체성 충실도를 가진 피사체 일관성 있는 비디오를 생성하는 모델의 능력에 중점을 둡니다. 이를 위해 OpenS2V-Eval은 실제 및 합성 테스트 데이터를 포함하는 7가지 주요 S2V 범주에서 180개의 프롬프트를 도입합니다. 또한, 인간의 선호도를 S2V 벤치마크와 정확하게 정렬하기 위해 생성된 비디오에서 피사체 일관성, 자연스러움 및 텍스트 관련성을 개별적으로 정량화하는 세 가지 자동 지표인 NexusScore, NaturalScore 및 GmeScore를 제안합니다. 이를 바탕으로 16개의 대표적인 S2V 모델에 대한 종합적인 평가를 수행하여 다양한 콘텐츠에서 각 모델의 강점과 약점을 강조합니다. 더불어, 5백만 개의 고품질 720P 피사체-텍스트-비디오 트리플로 구성된 최초의 오픈소스 대규모 S2V 생성 데이터셋인 OpenS2V-5M을 생성합니다. 특히, (1) 피사체를 분할하고 비디오 간 연관을 통해 짝 정보를 구축하고 (2) 원시 프레임에 GPT-Image-1을 프롬프트하여 다중 뷰 표현을 합성함으로써 데이터셋에서 피사체 정보 다양성을 보장합니다. OpenS2V-Nexus를 통해 향후 S2V 생성 연구를 가속화하는 강력한 기반 시설을 제공합니다.