Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance

Created by
  • Haebom

저자

Zhang Li, Biao Yang, Qiang Liu, Shuo Zhang, Zhiyin Ma, Liang Yin, Linger Deng, Yabo Sun, Yuliang Liu, Xiang Bai

개요

본 논문은 대규모 다중 모드 모델(LMMs)의 정확도 향상을 위한 새로운 프레임워크인 LIRA를 제안합니다. LMMs는 분할 및 이해 능력이 뛰어나지만, 부정확한 분할 및 환각적 이해라는 두 가지 한계점을 가지고 있습니다. LIRA는 시각적 이해와 분할의 상호 보완적 관계를 활용하여 이러한 한계를 극복합니다. 주요 구성 요소인 Semantic-Enhanced Feature Extractor (SEFE)는 의미 및 픽셀 수준의 특징을 융합하여 객체 속성 추론을 개선하고 더 정확한 분할을 가능하게 합니다. 또 다른 구성 요소인 Interleaved Local Visual Coupling (ILVC)는 분할 마스크를 기반으로 지역적 특징을 추출한 후 지역적 설명을 자동 회귀적으로 생성하여 환각을 완화하기 위한 세밀한 감독을 제공합니다. 객체 분할의 정밀도와 토큰의 잠재적 관련 의미 간의 상관관계를 정량화하기 위해 Attributes Evaluation (AttrEval) 데이터셋을 도입했습니다. 실험 결과, LIRA는 분할 및 이해 작업 모두에서 최첨단 성능을 달성했습니다.

시사점, 한계점

시사점:
LMMs의 부정확한 분할 및 환각적 이해 문제 해결에 대한 새로운 접근 방식 제시.
SEFE와 ILVC를 통해 분할 정확도와 이해 능력 향상.
객체 분할 정밀도와 잠재적 관련 의미 간의 상관관계 규명 및 AttrEval 데이터셋 제시.
다양한 분할 및 이해 작업에서 최첨단 성능 달성.
한계점:
제시된 AttrEval 데이터셋의 규모 및 일반화 성능에 대한 추가적인 검증 필요.
LIRA의 성능 향상이 특정 데이터셋 또는 작업에 국한될 가능성.
LIRA 프레임워크의 계산 비용 및 복잡성에 대한 분석 필요.
👍