# SVFSearch: A Multimodal Knowledge-Intensive Benchmark for Short-Video Frame Search in the Gaming Vertical Domain

### 저자

Lingtao Mao, Huangyu Dai, Xinyu Sun, Zihan Liang, Ben Chen, Chenyi Lei, Wenwu Ou

### 💡 개요

본 논문은 게임 분야의 짧은 동영상 프레임 검색을 위한 최초의 개방형 멀티모달 지식 집약적 벤치마크인 SVFSearch를 제안합니다. SVFSearch는 시각적으로 모호하고 도메인 특화된 지식이 필요한 짧은 동영상 장면 검색 능력 평가에 초점을 맞춥니다. 다양한 AI 에이전트 및 검색 모델의 성능을 평가한 결과, 현재 모델의 답변 능력과 실제 에이전트 검색 능력 사이에 상당한 격차가 있음을 발견했습니다.

### 🔑 시사점 및 한계

- 멀티모달 에이전트가 복잡한 짧은 동영상 검색 작업을 수행하는 데 있어 현재 기술 수준과 이상적인 성능 간의 격차가 크다는 것을 보여줍니다.

- 시각적 정보 이해, 검색 품질, 증거 기반 추론, 도구 사용 등의 분야에서 개선이 필요함을 지적합니다.

- 향후 연구는 시각적 근거 마련, 검색 결과의 신뢰성 향상, 에이전트의 효율적인 도구 사용 전략 개발에 집중해야 합니다.

[PDF 보기](https://arxiv.org/pdf/2605.17946)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).