Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning to Inference Adaptively for Multimodal Large Language Models

Created by
  • Haebom

저자

Zhuoyan Xu, Khoi Duc Nguyen, Preeti Mukherjee, Saurabh Bagchi, Somali Chaterji, Yingyu Liang, Yin Li

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 효율적인 추론을 위한 적응형 추론 프레임워크인 AdaLLaVA를 제안한다. 기존 MLLM은 높은 계산 비용으로 인해 자원 제약 환경에서 배포가 어려운데, AdaLLaVA는 추론 중 입력 데이터와 지연 시간 예산을 고려하여 MLLM의 연산을 동적으로 재구성하는 학습 기반의 접근 방식을 통해 이 문제를 해결한다. 질문 응답, 추론, 환각 등 다양한 벤치마크 실험을 통해 AdaLLaVA가 입력 지연 시간 예산을 효과적으로 준수하며, 실행 시간에 따라 정확도와 지연 시간의 다양한 절충안을 달성함을 보여준다. 또한, 입력 지연 시간과 콘텐츠에 적응하고, 토큰 선택과 통합하여 효율성을 높이며, 다양한 MLLM에 일반화될 수 있음을 증명한다.

시사점, 한계점

시사점:
제한된 자원 환경에서도 MLLM을 효율적으로 활용할 수 있는 새로운 방법 제시.
입력 데이터와 지연 시간 예산에 따라 동적으로 MLLM 연산을 조정하여 최적의 성능을 달성.
토큰 선택과의 통합을 통해 추가적인 효율성 향상 가능성 제시.
다양한 MLLM에 적용 가능한 일반적인 프레임워크.
한계점:
AdaLLaVA의 성능은 사용되는 MLLM과 벤치마크 데이터셋에 따라 달라질 수 있음.
실제 환경에서의 일반화 성능에 대한 추가적인 검증 필요.
매우 복잡한 질문이나 이미지에 대한 처리 성능은 추가 연구가 필요할 수 있음.
👍