대규모 다중 모드 모델(LMMs)은 분할과 이해에서 유망한 성능을 보이지만, 부정확한 분할과 환각적 이해라는 두 가지 한계를 가지고 있습니다. 이러한 문제는 주로 약한 시각적 이해와 미세한 인식의 부족에서 기인합니다. 본 논문에서는 시각적 이해와 분할의 상호 보완적인 관계를 활용하는 LIRA 프레임워크를 제안합니다. LIRA는 두 가지 주요 구성 요소, 즉 의미 기반 특징 추출기(SEFE)와 교차된 국소 시각적 결합(ILVC)으로 구성됩니다. SEFE는 의미와 픽셀 수준의 특징을 융합하여 객체 속성 추론을 개선하여 더 정확한 분할을 달성합니다. ILVC는 분할 마스크를 기반으로 국소 특징을 추출한 후 국소 설명을 자동 회귀적으로 생성하여 환각을 완화하기 위한 미세한 수준의 감독을 제공합니다. 또한, 객체 분할의 정확도는 토큰의 잠재적 관련 의미와 양의 상관관계가 있음을 발견하고, 이 관계와 모델의 잠재적 의미 추론 능력을 정량화하기 위해 속성 평가(AttrEval) 데이터셋을 도입했습니다. 실험 결과, LIRA는 분할 및 이해 작업 모두에서 최첨단 성능을 달성했습니다. 코드는 https://github.com/echo840/LIRA 에서 이용 가능합니다.