본 논문은 MLLM(Multimodal Large Language Models)의 세부적인 이미지 분류 능력 향상을 목표로 하는 AutoSEP이라는 반복적 자기 지도 프롬프트 학습 프레임워크를 소개합니다. AutoSEP은 레이블이 없는 데이터를 활용하여 MLLM이 이미지 내의 중요한 차별적 특징을 식별하도록 안내하는 설명 프롬프트를 학습하고, 분류 정확도를 향상시킵니다. MLLM에 대한 블랙박스 접근만을 요구하며, 별도의 훈련이나 미세 조정을 필요로 하지 않습니다. 여러 세부적인 분류 데이터 세트에 대해 평가되었으며, 다른 비지도 학습 기반 모델보다 일관적으로 우수한 성능을 보였습니다.