Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance

Created by
  • Haebom

저자

Zhang Li, Biao Yang, Qiang Liu, Shuo Zhang, Zhiyin Ma, Shuo Zhang, Liang Yin, Linger Deng, Yabo Sun, Yuliang Liu, Xiang Bai

개요

대규모 다중 모드 모델(LMMs)은 분할과 이해에서 유망한 성능을 보이지만, 부정확한 분할과 환각적 이해라는 두 가지 한계를 가지고 있습니다. 이러한 문제는 주로 약한 시각적 이해와 미세한 인식의 부족에서 기인합니다. 본 논문에서는 시각적 이해와 분할의 상호 보완적인 관계를 활용하는 LIRA 프레임워크를 제안합니다. LIRA는 두 가지 주요 구성 요소, 즉 의미 기반 특징 추출기(SEFE)와 교차된 국소 시각적 결합(ILVC)으로 구성됩니다. SEFE는 의미와 픽셀 수준의 특징을 융합하여 객체 속성 추론을 개선하여 더 정확한 분할을 달성합니다. ILVC는 분할 마스크를 기반으로 국소 특징을 추출한 후 국소 설명을 자동 회귀적으로 생성하여 환각을 완화하기 위한 미세한 수준의 감독을 제공합니다. 또한, 객체 분할의 정확도는 토큰의 잠재적 관련 의미와 양의 상관관계가 있음을 발견하고, 이 관계와 모델의 잠재적 의미 추론 능력을 정량화하기 위해 속성 평가(AttrEval) 데이터셋을 도입했습니다. 실험 결과, LIRA는 분할 및 이해 작업 모두에서 최첨단 성능을 달성했습니다. 코드는 https://github.com/echo840/LIRA 에서 이용 가능합니다.

시사점, 한계점

시사점:
시각적 이해와 분할의 상호 보완적 관계를 활용하여 LMMs의 성능을 향상시키는 새로운 프레임워크 LIRA 제안.
SEFE와 ILVC를 통해 부정확한 분할과 환각적 이해 문제를 효과적으로 완화.
객체 분할의 정확도와 잠재적 관련 의미의 상관관계를 규명하고, 이를 정량화하기 위한 AttrEval 데이터셋 제시.
분할 및 이해 작업에서 최첨단 성능 달성.
공개된 코드를 통해 재현성 확보 및 후속 연구 용이.
한계점:
AttrEval 데이터셋의 규모 및 일반화 가능성에 대한 추가적인 검증 필요.
LIRA의 성능이 특정 유형의 데이터나 작업에 편향될 가능성 존재.
다양한 다중 모드 데이터에 대한 일반화 성능 평가 필요.
👍