본 논문은 다중 모달 대규모 언어 모델(MLLM)이 세세한 시각적 인식(FGVR) 과제에서 어려움을 겪는다는 점을 지적합니다. FGVR은 이미지에서 하위 수준 범주를 식별하는 것을 목표로 하며, 이는 객체 중심 시각적 질문 응답 및 추론과 같은 MLLM의 고급 기능에 부정적인 영향을 미칩니다. 따라서 본 논문에서는 객체 정보 추출, 범주 지식 저장, 객체-범주 정렬 등 MLLM의 FGVR 능력을 재검토하고, 이러한 문제의 근본 원인을 정렬 문제로 파악합니다. 이를 해결하기 위해, 본 논문은 객체의 정보가 풍부한 속성 설명을 학습 단계에 통합하여 모델의 FGVR 능력을 향상시키는 Finedefics라는 MLLM을 제시합니다. 객체-속성 쌍과 속성-범주 쌍에 대한 대조 학습을 동시에 사용하고, 유사하지만 잘못된 범주의 예를 어려운 부정 예로 사용하여 시각적 객체와 범주 이름의 표현을 자연스럽게 가깝게 만듭니다. 여러 FGVR 데이터셋에 대한 광범위한 평가는 Finedefics가 비슷한 매개변수 크기를 가진 기존 MLLM보다 성능이 우수함을 보여줍니다. 코드는 https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025 에서 이용 가능합니다.