본 논문은 대규모 다중 모달 모델(LMM)의 부분 기반 추론 능력의 한계를 밝히고, 이를 개선하기 위한 새로운 벤치마크 PARTONOMY와 모델 PLUM을 제시한다. PARTONOMY는 기존 부분 데이터셋과 새롭게 주석된 이미지를 포함하여 862개의 부분 레이블과 534개의 객체 레이블로 구성된 벤치마크로, 특수화된 개념(예: 농업용 비행기)을 사용하고 부분 간 비교, 부분-전체 관계 고려, 시각적 분할을 통한 텍스트 예측 정당화 등의 과제를 포함한다. 실험 결과, 최첨단 LMM들(예: LISA-13B)의 부분 기반 추론 성능이 매우 낮음을 보여주며(gIoU 5.9%), 기존 분할 기반 LMM의 두 가지 주요 아키텍처적 결함(사전 학습에서 보지 못한 [SEG] 토큰 사용으로 인한 분포 이동, 과거 예측을 활용하지 않고 예측된 분할을 버림)을 지적한다. 이를 해결하기 위해, 본 논문은 부분 중심 LMM들을 훈련하고, 스팬 태깅과 피드백 루프를 사용하는 새로운 분할 기반 LMM인 PLUM을 제안한다. PLUM은 기존 분할 기반 LMM들을 능가하는 성능을 보이며, 설명적 부분 분할 과제에 미세 조정된 PLUM은 훨씬 많은 분할 데이터로 훈련된 모델들과 경쟁력 있는 성능을 보인다.