딥러닝의 발전을 통해 잎 이미지 기반 식물 질병 분류 연구가 진행되었으나, 기존 연구는 균일한 배경의 PlantVillage 데이터셋에 의존하여 실제 농업 환경에 적용하는 데 어려움이 있었다. 본 연구는 주의 기반 아키텍처와 제로샷 학습 기법이 학술 데이터셋과 실제 농업 환경 간의 격차를 해소할 수 있는지 탐구한다. CNN, Vision Transformer, CLIP 기반 제로샷 모델을 평가한 결과, CNN은 도메인 변화에 약점을 보였지만, Vision Transformer는 전역 컨텍스트 특징을 포착하여 더 나은 일반화 성능을 보였다. 특히 CLIP 모델은 별도의 학습 없이 자연어 설명을 통해 질병을 분류하여 높은 적응력과 해석 가능성을 보여주었다.