# Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models

### 저자

Hulingxiao He, Geng Li, Zijun Geng, Jinglin Xu, Yuxin Peng

### 개요

다중 모드 대규모 언어 모델(MLLM)은 다양한 시각적 이해 작업에서 놀라운 능력을 보여주었지만, 하위 수준 범주를 이미지에서 식별하는 세밀한 시각적 인식(FGVR)에는 여전히 어려움을 겪습니다. 이는 객체 중심 시각적 질문 응답 및 추론과 같은 MLLM의 더욱 고급 기능에 부정적인 영향을 미칠 수 있습니다. 본 연구에서는 객체 정보 추출, 범주 지식 저장, 객체-범주 정렬 등 MLLM의 FGVR에 대한 세 가지 핵심 기능을 재검토하고, 오정렬 문제로서 근본 원인의 위치를 파악합니다. 이 문제를 해결하기 위해, 본 연구는 객체의 정보가 풍부한 속성 설명을 훈련 단계에 통합하여 모델의 FGVR 기능을 향상시키는 MLLM인 Finedefics를 제시합니다. 객체-속성 쌍과 속성-범주 쌍에 대해 동시에 대조 학습을 사용하고, 유사하지만 잘못된 범주의 예를 어려운 음수로 사용하여 시각적 객체와 범주 이름의 표현을 자연스럽게 가깝게 만듭니다. 여러 인기 FGVR 데이터 세트에 대한 광범위한 평가는 Finedefics가 비슷한 매개변수 크기의 기존 MLLM보다 성능이 우수함을 보여줍니다. 코드는 [https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025](https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025) 에서 이용 가능합니다.

[GitHub - PKU-ICST-MIPL/Finedefics_ICLR2025](https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025)

### 시사점, 한계점

- **시사점:** Finedefics는 기존 MLLM보다 세밀한 시각적 인식(FGVR) 성능이 우수함을 보여주는 새로운 MLLM입니다. 객체-속성 쌍과 속성-범주 쌍에 대한 대조 학습을 통해 시각적 객체와 범주 이름의 표현을 효과적으로 정렬합니다.  이는 객체 중심 시각적 질문 응답 및 추론과 같은 고급 기능 향상에 기여할 수 있습니다.

- **한계점:**  논문에서는 Finedefics의 한계점에 대한 명시적인 언급이 없습니다.  추가적인 실험이나 분석을 통해 다양한 데이터셋이나 더 복잡한 시각적 이해 작업에 대한 Finedefics의 일반화 성능, 계산 비용, 그리고  다른 MLLM과의 비교 분석이 더욱 자세히 이루어져야 할 것입니다.

[PDF 보기](https://arxiv.org/pdf/2501.15140)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).