본 논문은 비디오 공유 플랫폼의 급증하는 사용자 생성 콘텐츠 속에서 효율적인 비디오 검색 및 탐색의 어려움을 해결하기 위해, 효과적인 비디오 요약 생성의 중요성을 강조합니다. 기존의 Video-llama 모델이 시간적 및 공간적 특징 모델링 통합 및 최적화에 어려움을 겪고 많은 계산 자원을 필요로 한다는 점을 지적하며, MiLoRA-ViSum을 제안합니다. MiLoRA-ViSum은 기존의 Low-Rank Adaptation (LoRA)을 정교한 전문가 혼합(mixture-of-experts) 패러다임으로 확장하여, 비디오 요약 작업에 맞춘 이중 시간-공간 적응 메커니즘을 통합합니다. 각각 다른 시간적 또는 공간적 차원을 다루도록 미세 조정된 특수 LoRA 전문가들을 동적으로 통합하는 방식입니다. VideoXum 및 ActivityNet 데이터셋에 대한 광범위한 평가를 통해 MiLoRA-ViSum이 최첨단 모델에 비해 최고의 요약 성능을 달성하면서도 계산 비용을 상당히 줄였음을 보여줍니다.