본 논문은 미국 대통령 선거 TV 광고에 대한 가장 크고 포괄적인 디지털 데이터셋을 소개합니다. 이 데이터셋은 기계 검색 가능한 자막과 고품질 요약을 포함하여 다양한 학술 연구를 용이하게 합니다. 기존 연구는 수동으로 데이터를 수집하고 주석을 달아야 하는 어려움 때문에 작은 데이터셋에 의존했지만, 본 논문에서는 대규모 병렬화된 AI 기반 분석 파이프라인을 설계하여 비디오 준비, 자막 생성, 요약을 자동화했습니다. Julian P. Kanter Political Commercial Archive의 9,707개의 대통령 광고에 이 방법론을 적용하여, 인간 평가를 통해 생성된 자막과 요약이 수동으로 생성된 것과 동등한 품질임을 보였습니다. 70년에 걸친 대통령 선거에서 주요 이슈 영역의 기원과 진화를 추적하는 애플리케이션을 통해 데이터의 가치를 보여줍니다. 또한, 본 논문의 분석 파이프라인과 코드베이스는 다른 비디오 데이터셋에 대해 고품질 요약을 얻는 방법을 보여줍니다.