2025 ImageCLEF MEDIQA-MAGIC 챌린지(피부과 질문 답변 및 분할)에서 2위를 차지한 연구 결과를 소개한다. 실제 환자의 질문과 이미지를 사용하여 다중 선택형 임상 질문에 대한 정답을 선택하는 폐쇄형 시각적 질문 답변(CVQA) 작업을 다룬다. Qwen, Gemma, LLaMA 계열의 오픈소스 다중 모달 모델을 경진 대회 데이터셋으로 미세 조정하고, 후보 모델 출력 간의 조정 및 판정을 위한 구조적 추론 계층을 도입하며, 미국 피부과 학회의 증상 및 상태 데이터베이스에서 관련 정보를 추가하는 에이전트 RAG(Retrieval-Augmented Generation)를 통합하는 세 가지 핵심 구성 요소를 결합한 접근 방식을 제시한다. 이 연구는 제한된 입력으로 높은 정확도와 해석력을 갖춘 비동기적 진단 결정이 필요한 원격 의료의 실질적인 문제를 해결한다.