DEEVISum은 비디오 세그먼트별 요약을 위해 설계된 경량적이고 효율적이며 확장 가능한 비전 언어 모델입니다. 텍스트 및 오디오 기반 신호를 결합한 다중 모드 프롬프트를 활용하며, 다단계 지식 증류(MSKD)와 조기 종료(EE)를 통합하여 성능과 효율성 간의 균형을 맞춥니다. MSKD는 기준 증류 대비 1.33%의 절대 F1 향상을 제공하며, EE는 F1 점수가 1.3점 감소하는 대신 추론 시간을 약 21% 단축합니다. TVSum 데이터셋에서 평가한 결과, 최고 성능 모델인 PaLI Gemma2 3B + MSKD는 61.1의 F1 점수를 달성하여 훨씬 큰 모델들과 경쟁력을 갖추면서도 낮은 계산 비용을 유지합니다. 코드와 처리된 데이터셋을 공개하여 추가 연구를 지원합니다.