본 논문은 장시간 비디오 내용 이해를 위한 새로운 시맨틱 기반 검색 프레임워크를 제안합니다. 기존의 밀집 샘플링된 프레임 자막이나 end-to-end 특징 선택기 방식이 텍스트 질의와 시각적 요소 간의 논리적 관계를 간과하는 문제를 해결하기 위해, 공간적 동시 발생, 시간적 근접성, 속성 의존성, 인과적 순서 등 네 가지 논리적 의존성을 정의하고, 이를 통해 프레임 샘플링 분포를 반복적으로 개선하여 질의에 맞는 시맨틱적으로 중요한 프레임을 식별합니다. 제안된 방법은 키프레임 선택 지표에서 새로운 최고 성능을 달성했으며, 장시간 비디오 질의응답 작업에서도 기존 방법보다 성능 향상을 보였습니다. 코드는 공개될 예정입니다.