# Multimodal Contextualized Support for Enhancing Video Retrieval System

### 저자

Quoc-Bao Nguyen-Le, Thanh-Huy Le-Nguyen

### 💡 개요

기존 비디오 검색 시스템은 주로 개별 키프레임이나 이미지에 집중하여 비디오 클립이나 세그먼트 전체를 인코딩하지 못하는 문제를 안고 있습니다. 이는 단일 프레임 분석만으로는 복잡한 행동이나 사건을 설명하는 쿼리에 대한 정확한 결과를 도출하기 어렵게 만듭니다. 본 연구는 최신 방법론을 통합하여 멀티모달 데이터를 추출하고 여러 프레임의 정보를 활용하는 새로운 파이프라인을 제안하며, 이를 통해 단순히 객체 탐지를 넘어 비디오 클립에서 추론할 수 있는 잠재적 의미를 포착하는 고수준 정보를 모델이 추상화하도록 합니다.

### 🔑 시사점 및 한계

- 비디오의 시간적, 멀티모달 정보를 통합함으로써 단순한 객체 인식을 넘어선 심층적인 의미 이해 기반의 비디오 검색이 가능해짐.

- 행동이나 사건과 같이 여러 프레임에 걸쳐 발생하는 쿼리에 대한 검색 정확도를 획기적으로 향상시킬 수 있는 잠재력.

- 제안된 방법론이 실제 복잡한 비디오 데이터셋에서 얼마나 효율적으로 확장 및 적용될 수 있는지에 대한 추가적인 검증 및 연구 필요.

---

[PDF 보기](https://arxiv.org/pdf/2412.07584)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).