Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding

Created by
  • Haebom

저자

Ansel Blume, Jeonghwan Kim, Hyeonjeong Ha, Elen Chatikyan, Xiaomeng Jin, Khanh Duy Nguyen, Nanyun Peng, Kai-Wei Chang, Derek Hoiem, Heng Ji

개요

본 논문은 대규모 다중 모달 모델(LMM)의 부분 기반 추론 능력의 한계를 밝히고, 이를 개선하기 위한 새로운 벤치마크 PARTONOMY와 모델 PLUM을 제시한다. PARTONOMY는 기존 부분 데이터셋과 새롭게 주석된 이미지를 포함하여 862개의 부분 레이블과 534개의 객체 레이블로 구성된 벤치마크로, 특수화된 개념(예: 농업용 비행기)을 사용하고 부분 간 비교, 부분-전체 관계 고려, 시각적 분할을 통한 텍스트 예측 정당화 등의 과제를 포함한다. 실험 결과, 최첨단 LMM들(예: LISA-13B)의 부분 기반 추론 성능이 매우 낮음을 보여주며(gIoU 5.9%), 기존 분할 기반 LMM의 두 가지 주요 아키텍처적 결함(사전 학습에서 보지 못한 [SEG] 토큰 사용으로 인한 분포 이동, 과거 예측을 활용하지 않고 예측된 분할을 버림)을 지적한다. 이를 해결하기 위해, 본 논문은 부분 중심 LMM들을 훈련하고, 스팬 태깅과 피드백 루프를 사용하는 새로운 분할 기반 LMM인 PLUM을 제안한다. PLUM은 기존 분할 기반 LMM들을 능가하는 성능을 보이며, 설명적 부분 분할 과제에 미세 조정된 PLUM은 훨씬 많은 분할 데이터로 훈련된 모델들과 경쟁력 있는 성능을 보인다.

시사점, 한계점

시사점:
LMM의 부분 기반 추론 능력의 중요성과 한계를 명확히 제시하고, 이를 개선하기 위한 새로운 벤치마크와 모델을 제안하였다.
기존 분할 기반 LMM의 아키텍처적 결함을 분석하고, 이를 해결하는 PLUM 모델을 통해 성능 향상을 달성하였다.
PLUM은 다양한 시각적 추론 과제에서 우수한 성능을 보이며, 세분화된 시각적 이해를 위한 새로운 가능성을 제시한다.
한계점:
PARTONOMY 데이터셋의 규모가 더욱 확장될 필요가 있다.
PLUM 모델의 성능은 특정 데이터셋에 국한될 수 있으며, 일반화 성능에 대한 추가적인 연구가 필요하다.
설명적 부분 분할 과제에 대한 정의 및 평가 지표의 개선이 필요할 수 있다.
👍