Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models

Created by
  • Haebom

저자

Hulingxiao He, Geng Li, Zijun Geng, Jinglin Xu, Yuxin Peng

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)이 세세한 시각적 인식(FGVR) 과제에서 어려움을 겪는다는 점을 지적합니다. FGVR은 이미지에서 하위 수준 범주를 식별하는 것을 목표로 하며, 이는 객체 중심 시각적 질문 응답 및 추론과 같은 MLLM의 고급 기능에 부정적인 영향을 미칩니다. 따라서 본 논문에서는 객체 정보 추출, 범주 지식 저장, 객체-범주 정렬 등 MLLM의 FGVR 능력을 재검토하고, 이러한 문제의 근본 원인을 정렬 문제로 파악합니다. 이를 해결하기 위해, 본 논문은 객체의 정보가 풍부한 속성 설명을 학습 단계에 통합하여 모델의 FGVR 능력을 향상시키는 Finedefics라는 MLLM을 제시합니다. 객체-속성 쌍과 속성-범주 쌍에 대한 대조 학습을 동시에 사용하고, 유사하지만 잘못된 범주의 예를 어려운 부정 예로 사용하여 시각적 객체와 범주 이름의 표현을 자연스럽게 가깝게 만듭니다. 여러 FGVR 데이터셋에 대한 광범위한 평가는 Finedefics가 비슷한 매개변수 크기를 가진 기존 MLLM보다 성능이 우수함을 보여줍니다. 코드는 https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025 에서 이용 가능합니다.

시사점, 한계점

시사점:
Finedefics는 기존 MLLM보다 세세한 시각적 인식(FGVR) 성능이 우수함을 보여줍니다.
객체 속성 정보를 활용한 대조 학습 기법이 FGVR 성능 향상에 효과적임을 제시합니다.
객체 중심 시각적 질문 응답 및 추론 등 고급 MLLM 기능 향상에 기여할 수 있습니다.
한계점:
제시된 모델의 성능 향상이 특정 데이터셋에 국한될 가능성이 있습니다.
다양한 종류의 시각적 데이터에 대한 일반화 성능에 대한 추가 연구가 필요합니다.
모델의 매개변수 크기와 계산 비용에 대한 고려가 필요합니다.
👍