LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding

Created by

Haebom

저자

Boyuan Sun, Jiaxing Zhao, Xiang Chen, Xihan Wei, Qibin Hou

💡 개요

본 논문은 사용자의 지시에 따라 시각적 특징 추출기의 가중치를 동적으로 조절하는 새로운 비디오 멀티모달 대규모 언어 모델인 LLaVA-Octopus를 제안합니다. 다양한 시각적 특징 추출기가 각기 다른 태스크에 강점을 보이므로, 이를 지시 기반으로 융합하여 모델 성능을 극대화합니다. 실험 결과, LLaVA-Octopus는 비디오 질의응답, 긴 비디오 이해 등 다양한 벤치마크에서 우수한 성능을 보였습니다.

🔑 시사점 및 한계

•

사용자의 지시에 따라 시각적 특징 추출기의 융합 방식을 적응적으로 조절함으로써 비디오 이해 성능을 향상시킬 수 있습니다.

•

다양한 시각적 특징 추출기의 상호 보완적인 강점을 효과적으로 활용할 수 있습니다.

•

동적인 가중치 조절 메커니즘이 모든 유형의 비디오 태스크에 최적화되었는지, 그리고 계산 복잡성에 대한 추가적인 분석이 필요합니다.

PDF 보기

Made with Slashpage