다양한 모드를 갖는 대규모 언어 모델(MLLM)은 추론 능력이 뛰어나지만, 상당한 계산 비용이 소요되어 자원이 제한된 환경에서의 배포가 어렵습니다. 기존의 MLLM 효율성 개선 연구에도 불구하고, 특히 변화하는 자원 가용성(예: 기기에서 다른 프로그램 실행으로 인한 경합)과 같은 다양한 실행 시간 조건에 대응하는 데에는 미흡했습니다. 이러한 한계를 극복하기 위해 본 논문에서는 입력 데이터와 대기 시간 예산을 고려하여 추론 중 MLLM의 연산을 동적으로 재구성하는 방법을 학습하는 적응형 추론 프레임워크인 AdaLLaVA를 제시합니다. 질문 응답, 추론, 환각과 관련된 벤치마크에 대한 광범위한 실험을 수행하여 AdaLLaVA가 입력 대기 시간 예산을 효과적으로 준수하고, 실행 시간에 다양한 정확도와 대기 시간 간의 절충을 달성함을 보여줍니다. 또한, AdaLLaVA가 입력 대기 시간과 콘텐츠에 적응하고, 토큰 선택과 통합하여 효율성을 높일 수 있으며, MLLM에 일반화될 수 있음을 보여줍니다. 코드는 https://zhuoyan-xu.github.io/ada-llava/ 에서 공개됩니다.