This page organizes papers related to artificial intelligence published around the world. This page is summarized using Google Gemini and is operated on a non-profit basis. The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.
본 논문은 컴퓨터 비전 분야에서 다양한 지각(Perception) 하위 작업들을 예측 유형과 지시 유형의 두 가지 차원으로 체계적으로 분류하여 제시합니다. 기존 연구들이 이러한 조합의 일부에만 집중하는 한계를 극복하고자, 시각적 대규모 언어 모델(VLLM)을 통합한 다중 입도 및 다용도 지각 프레임워크인 MVP-LM을 제안합니다. MVP-LM은 단일 아키텍처 내에서 단어 기반 및 문장 기반 지각 작업과 박스 및 마스크 예측을 통합하며, 다중 입도 디코더와 CoT(Chain-of-Thought) 영감을 받은 데이터셋 통합 전략을 통해 다양한 작업(전체 영역 분할, 객체 탐지, 기반 지정, 참조 표현 분할 등)에 대한 원활한 지도 학습 미세 조정을 가능하게 합니다. 또한, VLLM의 디코딩 및 생성 능력을 활용하기 위한 쿼리 향상 전략을 도입하였으며, 다양한 벤치마크에 대한 광범위한 실험을 통해 프레임워크의 효과를 입증합니다. 소스 코드는 https://github.com/xiangwentao666/MVP-LM 에서 제공됩니다.