Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Advancing Visual Large Language Model for Multi-granular Versatile Perception

Created by
  • Haebom
Category
Empty

저자

Wentao Xiang, Haoxian Tan, Cong Wei, Yujie Zhong, Dengjie Li, Yujiu Yang

개요

본 논문은 컴퓨터 비전 분야에서 다양한 지각(Perception) 하위 작업들을 예측 유형과 지시 유형의 두 가지 차원으로 체계적으로 분류하여 제시합니다. 기존 연구들이 이러한 조합의 일부에만 집중하는 한계를 극복하고자, 시각적 대규모 언어 모델(VLLM)을 통합한 다중 입도 및 다용도 지각 프레임워크인 MVP-LM을 제안합니다. MVP-LM은 단일 아키텍처 내에서 단어 기반 및 문장 기반 지각 작업과 박스 및 마스크 예측을 통합하며, 다중 입도 디코더와 CoT(Chain-of-Thought) 영감을 받은 데이터셋 통합 전략을 통해 다양한 작업(전체 영역 분할, 객체 탐지, 기반 지정, 참조 표현 분할 등)에 대한 원활한 지도 학습 미세 조정을 가능하게 합니다. 또한, VLLM의 디코딩 및 생성 능력을 활용하기 위한 쿼리 향상 전략을 도입하였으며, 다양한 벤치마크에 대한 광범위한 실험을 통해 프레임워크의 효과를 입증합니다. 소스 코드는 https://github.com/xiangwentao666/MVP-LM 에서 제공됩니다.

시사점, 한계점

시사점:
다양한 지각 작업(단어/문장 기반, 박스/마스크 예측)을 단일 아키텍처로 통합하는 MVP-LM 프레임워크 제시.
다중 입도 디코더와 CoT 기반 데이터셋 통합 전략을 통해 다양한 작업에 대한 효율적인 미세 조정 가능.
VLLM의 디코딩 및 생성 능력을 활용한 쿼리 향상 전략 제시.
광범위한 실험을 통해 MVP-LM의 우수성 검증.
공개된 소스 코드를 통한 재현성 및 확장성 제공.
한계점:
제시된 프레임워크의 실제 세계 적용에 대한 추가적인 연구 필요.
특정 유형의 지각 작업에 대한 성능 저하 가능성.
사용된 VLLM의 크기 및 계산 비용에 대한 고려 필요.
다양한 데이터셋에 대한 일반화 성능 평가 추가 필요.
👍