본 논문은 비디오 소비의 어려움을 해결하기 위해, 강화학습(RL) 기반의 다중 모달(영상 프레임과 자막) 비디오 요약 및 하이라이트 감지 파이프라인을 제안합니다. 기존 연구들이 영상 프레임 또는 자막만을 사용하거나 RL을 적용하지 않았던 것과 달리, 본 논문은 영상 프레임과 자막을 모두 활용하여 RL 프레임워크 내에서 다양하고 대표적인 요약을 생성하고 의미있는 자막 내용을 포함하는 비디오 세그먼트를 하이라이트로 감지합니다. 비지도 학습 방식을 통해 대규모 비주석 데이터셋으로 학습이 가능하다는 장점이 있습니다. 실험 결과, 자막 정보를 활용함으로써 시각적 정보만 사용하는 경우보다 성능이 우수함을 보여줍니다.