본 논문은 피부과 진료를 위한 의료 비전-언어 모델(VLM)의 발전을 목표로, 전문적인 피부과 진단 분석을 제공할 수 있는 전문화된 피부과 VLM의 부족 문제를 해결하기 위해 대규모 다중 모달 피부과 데이터셋인 MM-Skin을 제안합니다. MM-Skin은 임상, 진피경, 병리학적 이미지 등 3가지 이미징 모달리티와 전문 교과서에서 수집한 약 1만 개의 고품질 이미지-텍스트 쌍을 포함합니다. 또한, 기존 최대 규모의 피부과 VQA 데이터셋보다 9배 더 큰 2만 7천 개 이상의 다양한 지시사항 따르기 비전 질의응답(VQA) 샘플을 생성했습니다. 이 데이터셋을 활용하여, 정확하고 미묘한 피부 질환 해석을 위해 설계된 피부과 특화 VLM인 SkinVL을 개발했습니다. SkinVL은 VQA, 지도 미세 조정(SFT), 제로샷 분류 작업에서 일반 및 의료 VLM 모델보다 우수한 성능을 보였습니다. MM-Skin과 SkinVL은 임상 피부과 VLM 어시스턴트 개발을 발전시키는 데 의미 있는 기여를 합니다. MM-Skin은 Github에서 공개적으로 이용 가능합니다.