본 논문은 다중 모달 대규모 언어 모델(MLLM)의 연산 비용이 많다는 점을 해결하기 위해, 실행 중에 MLLM의 연산을 동적으로 재구성하는 적응형 추론 프레임워크인 AdaLLaVA를 제시합니다. AdaLLaVA는 입력 데이터와 지연 시간 예산을 고려하여 추론 중에 연산을 동적으로 재구성하여, 변화하는 자원 가용성(예: 다른 프로그램 실행으로 인한 경합)에 대응합니다. 질의응답, 추론, 환각 등 다양한 벤치마크에 대한 실험을 통해 AdaLLaVA가 입력 지연 시간 예산을 효과적으로 준수하고, 실행 중에 정확도와 지연 시간 간의 다양한 절충안을 달성함을 보여줍니다. 또한, AdaLLaVA는 입력 지연 시간과 내용에 적응하고, 토큰 선택과 통합하여 효율성을 높이며, 다양한 MLLM에 일반화될 수 있음을 보여줍니다.