본 논문은 원격 의료 환경에서 피부과 진료의 어려움, 즉 제한된 정보(이미지, 간단한 설명)로 진단해야 하는 점을 지적하며, 이를 해결하기 위해 임상적 추론 과정을 모방하는 의료 AI 시스템을 제안합니다. 7가지 vision-language 모델을 6가지 설정(기본 모델, 미세 조정 모델, 추론 레이어 추가 모델, 의학 문헌 검색 기능 추가 모델)으로 실험하여 비교 분석했습니다. 미세 조정은 오히려 성능 저하를 야기했지만, 임상적 추론 과정을 모방한 아키텍처는 최대 70%의 정확도를 달성하며, 설명 가능하고 의학 문헌 기반의 출력을 생성하여 임상 적용에 중요한 요소를 제공했습니다. 이를 통해 의료 AI는 임상 진단의 협업적이고 증거 기반의 실무를 재구성함으로써 성공할 수 있음을 보여줍니다.