UniFGVC는 소수 샘플만으로 미세립 시각 분류를 수행하는 새로운 프레임워크입니다. 기존의 미세립 시각 분류 방법들이 사전 훈련된 시각 언어 모델을 미세 조정하는 방식으로 과적합 및 일반화 성능 저하 문제를 겪는 것과 달리, UniFGVC는 다중 모달 검색으로 문제를 재정의하여 이러한 문제를 해결합니다. 본 연구는 먼저, 다중 모달 대규모 언어 모델(MLLM)의 지식을 활용하여 밀접하게 관련된 클래스를 구별하는 미세한 속성 특징을 포착하는 구조화된 텍스트 설명을 생성하는 Category-Discriminative Visual Captioner (CDV-Captioner)를 제안합니다. CDV-Captioner는 chain-of-thought 프롬프트와 시각적으로 유사한 참조 이미지를 사용하여 환각을 줄이고 생성된 캡션의 차별성을 높입니다. 이를 통해 각 이미지를 이미지-설명 쌍으로 변환하여 더욱 포괄적인 특징 표현을 가능하게 하고, 후속 검색 파이프라인을 위한 소수 샘플을 사용하여 다중 모달 범주 템플릿을 구성합니다. 그 후, 기성품 시각 및 텍스트 인코더가 쿼리 및 템플릿 쌍을 임베딩하고, 공동 공간에서 가장 가까운 템플릿을 검색하여 FGVC를 수행합니다. UniFGVC는 다양한 MLLM과 인코더와의 광범위한 호환성을 보장하여 다양한 소수 샘플 FGVC 시나리오에서 안정적인 일반화 및 적응성을 제공합니다. 12개의 FGVC 벤치마크에 대한 광범위한 실험은 기존의 소수 샘플 CLIP 기반 방법과 심지어 여러 완전 감독 MLLM 기반 접근 방식보다 일관되게 우수한 성능을 보여줍니다.