Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning to Inference Adaptively for Multimodal Large Language Models

Created by
  • Haebom
Category
Empty

저자

Zhuoyan Xu, Khoi Duc Nguyen, Preeti Mukherjee, Saurabh Bagchi, Somali Chaterji, Yingyu Liang, Yin Li

개요

다양한 모드를 갖는 대규모 언어 모델(MLLM)은 추론 능력이 뛰어나지만, 상당한 계산 비용이 소요되어 자원이 제한된 환경에서의 배포가 어렵습니다. 기존의 MLLM 효율성 개선 연구에도 불구하고, 특히 변화하는 자원 가용성(예: 기기에서 다른 프로그램 실행으로 인한 경합)과 같은 다양한 실행 시간 조건에 대응하는 데에는 미흡했습니다. 이러한 한계를 극복하기 위해 본 논문에서는 입력 데이터와 대기 시간 예산을 고려하여 추론 중 MLLM의 연산을 동적으로 재구성하는 방법을 학습하는 적응형 추론 프레임워크인 AdaLLaVA를 제시합니다. 질문 응답, 추론, 환각과 관련된 벤치마크에 대한 광범위한 실험을 수행하여 AdaLLaVA가 입력 대기 시간 예산을 효과적으로 준수하고, 실행 시간에 다양한 정확도와 대기 시간 간의 절충을 달성함을 보여줍니다. 또한, AdaLLaVA가 입력 대기 시간과 콘텐츠에 적응하고, 토큰 선택과 통합하여 효율성을 높일 수 있으며, MLLM에 일반화될 수 있음을 보여줍니다. 코드는 https://zhuoyan-xu.github.io/ada-llava/ 에서 공개됩니다.

시사점, 한계점

시사점:
제한된 자원 환경에서 MLLM의 효율적인 추론을 위한 적응형 추론 프레임워크 AdaLLaVA 제시.
입력 대기 시간 예산 준수 및 다양한 정확도-대기 시간 절충 달성.
입력 대기 시간 및 콘텐츠에 대한 적응성, 토큰 선택과의 통합, MLLM에 대한 일반화 가능성 입증.
한계점:
AdaLLaVA의 실제 적용 환경에서의 장기적인 안정성 및 성능에 대한 추가적인 연구 필요.
다양한 MLLM 아키텍처 및 하드웨어 플랫폼에 대한 일반화 성능 평가 필요.
대기 시간 예산 설정 및 최적화에 대한 더욱 심도있는 연구 필요.
👍