본 논문은 다중 모달 대규모 언어 모델(MLLM)의 효율적인 추론을 위한 적응형 추론 프레임워크인 AdaLLaVA를 제안한다. 기존 MLLM은 높은 계산 비용으로 인해 자원 제약 환경에서 배포가 어려운데, AdaLLaVA는 추론 중 입력 데이터와 지연 시간 예산을 고려하여 MLLM의 연산을 동적으로 재구성하는 학습 기반의 접근 방식을 통해 이 문제를 해결한다. 질문 응답, 추론, 환각 등 다양한 벤치마크 실험을 통해 AdaLLaVA가 입력 지연 시간 예산을 효과적으로 준수하며, 실행 시간에 따라 정확도와 지연 시간의 다양한 절충안을 달성함을 보여준다. 또한, 입력 지연 시간과 콘텐츠에 적응하고, 토큰 선택과 통합하여 효율성을 높이며, 다양한 MLLM에 일반화될 수 있음을 증명한다.