본 논문은 뉴스 영상의 비정형적인 특성으로 인해 효율적인 콘텐츠 구성 및 검색 시스템 구축에 어려움이 존재함을 지적하며, 이미지, 비디오, 오디오 분류기를 이용한 뉴스 영상 자동 분할에 대한 종합적인 비교 분석을 제시합니다. ResNet, ViViT, AST, 그리고 다중 모달 아키텍처를 포함한 여러 심층 학습 접근 방식을 개발하고 평가하여 광고, 스토리, 스튜디오 장면, 전환, 시각화 등 5가지 유형의 영상 부분을 분류했습니다. 41개의 뉴스 영상(1,832개의 장면 클립)으로 구성된 사용자 지정 주석 데이터 세트를 사용하여 실험한 결과, 시간적 모델보다 이미지 기반 분류기가 우수한 성능(84.34% 정확도)을 달성했으며, 특히 ResNet 아키텍처가 기존 최고 성능의 비디오 분류기를 능가하면서도 훨씬 적은 계산 자원을 필요로 함을 보였습니다. 전환(94.23%)과 광고(92.74%)에 대한 이진 분류 모델은 높은 정확도를 달성했습니다. 이러한 결과는 뉴스 영상 분할을 위한 효과적인 아키텍처에 대한 이해를 높이고 미디어 아카이빙, 개인화된 콘텐츠 제공, 지능형 비디오 검색 등 미디어 애플리케이션에서 자동 콘텐츠 구성 시스템을 구현하기 위한 실용적인 통찰력을 제공합니다.