본 논문은 의료 분야에서의 대규모 언어 모델(LLM) 활용의 어려움, 즉 높은 계산 비용과 지연 시간, 소규모 언어 모델(SLM)의 제한된 용량 및 의료 데이터의 부족과 민감성 문제를 해결하기 위해 새로운 프레임워크를 제안합니다. 이 프레임워크를 통해 38억 파라미터의 SLM인 MediPhi 모델을 개발하였는데, 이는 의학 및 임상 코퍼스(PMC, Medical Guideline, MedWiki 등)를 사용한 사전 지시 미세 조정, 모델 병합 및 임상 과제 정렬을 통해 이루어졌습니다. CLUE 벤치마크를 확장한 CLUE+를 사용하여 성능을 평가한 결과, 의료 개체(64.3%), 방사선학 보고서(49.5%), ICD-10 코딩(44%) 등에서 기본 모델 대비 상당한 성능 향상을 보였으며, GPT-4-0125를 능가하는 결과를 얻었습니다. 또한, 14가지 의료 NLP 과제와 98가지 세분화된 문서 유형을 포함하는 250만 개의 고품질 지시어로 구성된 합성 데이터셋 MediFlow를 구축하여 추가적인 성능 향상을 달성하였습니다.