본 논문은 대규모 다중 모드 모델(LMMs)의 정확도 향상을 위한 새로운 프레임워크인 LIRA를 제안합니다. LMMs는 분할 및 이해 능력이 뛰어나지만, 부정확한 분할 및 환각적 이해라는 두 가지 한계점을 가지고 있습니다. LIRA는 시각적 이해와 분할의 상호 보완적 관계를 활용하여 이러한 한계를 극복합니다. 주요 구성 요소인 Semantic-Enhanced Feature Extractor (SEFE)는 의미 및 픽셀 수준의 특징을 융합하여 객체 속성 추론을 개선하고 더 정확한 분할을 가능하게 합니다. 또 다른 구성 요소인 Interleaved Local Visual Coupling (ILVC)는 분할 마스크를 기반으로 지역적 특징을 추출한 후 지역적 설명을 자동 회귀적으로 생성하여 환각을 완화하기 위한 세밀한 감독을 제공합니다. 객체 분할의 정밀도와 토큰의 잠재적 관련 의미 간의 상관관계를 정량화하기 위해 Attributes Evaluation (AttrEval) 데이터셋을 도입했습니다. 실험 결과, LIRA는 분할 및 이해 작업 모두에서 최첨단 성능을 달성했습니다.
시사점, 한계점
•
시사점:
◦
LMMs의 부정확한 분할 및 환각적 이해 문제 해결에 대한 새로운 접근 방식 제시.
◦
SEFE와 ILVC를 통해 분할 정확도와 이해 능력 향상.
◦
객체 분할 정밀도와 잠재적 관련 의미 간의 상관관계 규명 및 AttrEval 데이터셋 제시.