본 연구는 말레이시아 임상 진료 지침 기반의 팩트 기반 안내를 제공하는 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템의 이미지 기반 쿼리 성능 향상을 목표로 한다. 일반적인 비전-언어 모델(Vision-Language Model, VLM) 캡션의 임상적 특이성 및 사실적 근거 부족 문제를 해결하기 위해, MedGemma 모델을 전문화하여 고품질 캡션을 생성하는 프레임워크를 제안하고 검증한다. 데이터 부족 문제를 해결하기 위해 지식 증류 파이프라인을 사용하여 피부과, 안저, 흉부 방사선 촬영 분야의 합성 데이터 세트를 생성하고, 파라미터 효율적인 QLoRA 방법을 사용하여 MedGemma를 미세 조정했다. 분류 정확도와 RAGAS 프레임워크를 활용한 캡션 충실도, 관련성, 정확성을 평가하는 이중 프레임워크를 통해 성능을 평가했다. 미세 조정된 모델은 분류 성능에서 상당한 개선을 보였으며, RAGAS 평가에서 캡션 충실도와 정확성에서 유의미한 향상을 보여 신뢰할 수 있고 사실에 근거한 설명을 생성하는 능력을 입증했다.