Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning

Created by
  • Haebom
Category
Empty

저자

Federico Cocchi, Nicholas Moratelli, Davide Caffagni, Sara Sarto, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara

개요

LLaVA-MORE는 다양한 비주얼 백본과 최신 언어 모델을 통합한 새로운 다중 모달 대규모 언어 모델(MMLM) 계열입니다. 기존 연구들이 주로 모델 크기를 확장하는 데 집중한 것과 달리, 본 논문은 모델 크기, 아키텍처, 성능 간의 상충 관계를 체계적으로 분석합니다. 통일된 훈련 프로토콜을 사용하여 Phi-4, LLaMA-3.1, Gemma-2 등 소규모 및 중규모 LLM을 비롯한 다양한 아키텍처에 대한 공정한 비교를 수행합니다. CLIP 기반 아키텍처부터 DINOv2, SigLIP, SigLIP2와 같은 대안까지 다양한 비주얼 인코더를 포괄적으로 연구하고, 이미지 해상도 증가 및 사전 훈련 데이터셋 변화의 영향도 조사합니다. 다중 모달 추론, 생성, 지시 사항 따르기 능력을 평가하여 효과적인 MLLM 설계에 대한 통찰력을 제공하며, 재현 가능한 평가 프레임워크를 통해 향후 모델 개발을 위한 지침을 제시합니다. 소스 코드와 훈련된 모델은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
모델 크기, 아키텍처, 성능 간의 상충 관계에 대한 체계적인 분석을 제공합니다.
다양한 비주얼 백본과 LLM의 성능 비교를 위한 통일된 훈련 프로토콜 및 재현 가능한 평가 프레임워크를 제시합니다.
이미지 해상도, 사전 훈련 데이터셋 등의 요소가 MLLM 성능에 미치는 영향에 대한 통찰력을 제공합니다.
효과적인 MLLM 설계를 위한 지침을 제시합니다.
소스 코드와 훈련된 모델을 공개적으로 제공하여 연구의 재현성을 높입니다.
한계점:
본 논문에서 다룬 모델과 비주얼 백본의 종류가 제한적일 수 있습니다.
더욱 다양하고 광범위한 데이터셋을 사용한 추가적인 연구가 필요할 수 있습니다.
특정 작업이나 도메인에 편향된 결과가 나타날 가능성이 있습니다.
👍