본 논문은 장시간 비디오 이해에서 다중 모드 대규모 언어 모델(MLLM)의 한계를 극복하기 위한 새로운 방법을 제시합니다. MLLM이 제한된 프레임 수만 처리할 수 있다는 점에 착안하여, 시각적 맥락 샘플링을 통해 다양한 예측을 생성하고, 점수 매커니즘을 사용하여 최종 예측을 선택하는 접근 방식을 제안합니다. 구체적으로, 핵심 프레임의 다양한 조합을 기반으로 다양한 답변을 생성할 수 있는 구간별 샘플링 전략을 고안했습니다. 최종 예측을 결정하기 위해 세 가지 점수(빈도 점수, 한계 신뢰도 점수, 추론 점수)를 선형적으로 결합하는 자기 보상 방식을 사용합니다. 빈도 점수는 다수결 정확도를 통해 강건성을 보장하고, 신뢰도 정렬 점수는 예측의 확실성을 반영하며, 유형별 추론 점수는 맞춤형 전략을 사용하여 희소한 시각 정보가 있는 경우를 처리합니다. 실험 결과, 7개의 데이터셋에서 세 가지 MLLM의 성능을 향상시키는 것을 보여줍니다.