본 논문은 긴 비디오의 짧고 정확하며 응집력 있는 요약을 생성하는 것을 목표로 하는 비디오 요약 분야에 기여한다. 기존 데이터셋의 한계(소스 비디오 수 부족, 멀티모달 비디오 콘텐츠 요약의 부재, 텍스트 요약의 부적절성)를 해결하기 위해, 본 연구는 30,000개의 다양한 YouTube 비디오로 구성된 교차 모달 비디오 요약 데이터셋 Instruct-V2Xum을 소개한다. 또한, 템포럴 프롬프트와 작업 지침을 사용하여 다양한 비디오 요약 작업을 하나의 대규모 언어 모델(LLM) 텍스트 디코더로 통합하는 새로운 비디오 요약 프레임워크 V2Xum-LLM (본 연구에서는 V2Xum-LLaMA)을 제안한다. Instruct-V2Xum의 텍스트 요약은 특정 프레임 인덱스를 참조하여 비디오 및 텍스트 요약의 정렬을 용이하게 한다. V2Xum-LLaMA는 여러 비디오 요약 작업에서 강력한 기반 모델보다 우수한 성능을 보이며, V2V 및 V2VT 요약 작업에 대한 향상된 평가 지표를 제안한다.