본 논문은 다중 모달 대규모 언어 모델(MLLM)에서 비디오 프레임의 막대한 계산 오버헤드 문제를 해결하기 위해, 명령어를 조건으로 활용한 하이브리드 수준 명령어 주입 전략(HICom)을 제안합니다. HICom은 지역적 및 전역적 수준에서 명령어를 조건으로 하여 압축을 수행함으로써, 사용자 중심 정보는 최대한 유지하면서 계산 부하를 줄이도록 설계되었습니다. 특히, 지역적 수준에서는 그룹화된 시각적 토큰에, 전역적 수준에서는 학습 가능한 토큰에 명령어 조건을 주입하고, 어텐션 메커니즘을 통해 조건부 압축을 완료합니다. 새로운 조건부 사전 훈련 단계와 HICom-248K 데이터셋을 도입하여 HICom의 성능을 더욱 향상시켰으며, 실험 결과 세 가지 다중 선택 QA 벤치마크에서 평균 2.43%의 성능 향상과 SOTA 방법 대비 78.8%의 토큰 절감 효과를 보였습니다.