LLaVA-Octopus는 다양한 비주얼 프로젝터의 특징들을 사용자 지시에 따라 가중치를 조정하여 활용하는 새로운 비디오 다중 모달 대규모 언어 모델입니다. 각 프로젝터는 정적 세부 정보 캡처, 시간 정보 처리, 시간적 일관성 요구 작업 등 특정 작업에서 서로 다른 특성을 보입니다. LLaVA-Octopus는 사용자 지시에 따라 특징 가중치를 동적으로 조정하여 가장 적합한 특징을 선택하고 결합함으로써 다중 모달 작업의 성능을 크게 향상시킵니다. 실험 결과, LLaVA-Octopus는 비디오 질문 답변, 긴 비디오 이해, 종합적인 다중 선택 벤치마크 등 여러 벤치마크에서 우수한 성능을 달성하여 광범위한 응용 가능성을 보여줍니다.