본 논문은 대규모 비전-언어 모델(LVLMs)의 다중 모드 컨텍스트 학습(ICL)의 효율성을 높이기 위해, 명시적인 예시 대신 학습 가능한 컨텍스트 벡터(M2IV)를 사용하는 새로운 방법을 제안합니다. M2IV는 다중 헤드 어텐션(MHA)과 다층 퍼셉트론(MLP)의 장점을 활용하여 강력한 다중 모드 충실도와 세밀한 의미 추출을 달성합니다. 이는 다양한 LVLMs과 작업에서 성능을 크게 향상시키고 많은 샷 시나리오로 효율적으로 확장되며, 컨텍스트 창 제한을 우회합니다. 또한, M2IV를 저장하고 검색하는 VLibrary를 도입하여 다중 모드 정렬, 사용자 지정 생성 및 안전 개선과 같은 작업을 위한 LVLM 제어를 유연하게 합니다. 7개의 벤치마크와 3개의 LVLMs에 대한 실험 결과, M2IV는 기존 ICL 및 이전의 표현 방식보다 평균 3.74%의 정확도 향상을 보이며 효율성도 크게 향상되었습니다.