Vision-Language Models (VLMs)는 정밀 농업과 같은 특정 분야에서 '추론 기반 환각'으로 인해 성능 향상에 어려움을 겪습니다. 이러한 문제의 핵심은 '모달리티 격차'로, 시각적 임베딩이 모델 파라미터에 이미 인코딩된 세부적인 전문 지식을 효과적으로 활성화하지 못하는 것입니다. 본 논문에서는 VLMs의 성능을 향상시키기 위해 자체 생성된 지식 힌트를 사용하는 매개변수 효율적인 프레임워크인 "Look, Recite, Then Answer"를 제안합니다. 이 프레임워크는 3단계로 구성됩니다: (1) Look은 객관적인 시각적 설명과 후보 세트를 생성합니다; (2) Recite는 경량 1.7B 라우터를 사용하여 시각적 단서를 특정 쿼리로 변환하여 후보별 매개변수 지식을 트리거합니다; (3) Answer는 설명과 암송된 지식 간의 병렬 증거 정렬을 수행하여 가장 일관된 레이블을 선택합니다. AgroBench에서 본 방법은 Qwen-VL보다 잡초 식별 정확도를 23.6% 향상시키고 외부 검색 오버헤드 없이 GPT-4o를 능가하는 등, 최첨단 결과를 달성했습니다. 이 모듈식 설계는 수동적 인식을 능동적이고 제어 가능한 지식 검색으로 변환함으로써 환각을 완화합니다.