본 논문은 의료 영상 데이터 부족 문제와 환자 프라이버시 보호 문제를 해결하기 위해 텍스트 기반 의료 이미지 생성 연구를 진행했습니다. 대규모 사전 학습된 잠재 확산 모델의 미세 조정(FLUX, Kandinsky)과 소규모 도메인 특화 모델 학습(MSDM) 두 가지 접근 방식을 비교 분석했습니다. 특히, 의료 텍스트 인코더, 변분 오토인코더, 그리고 크로스 어텐션 메커니즘을 통합한 새로운 모델 MSDM을 제안하여 의료 텍스트 프롬프트와 생성 이미지 간의 정합도를 높였습니다. 결론적으로, 대규모 모델은 더 높은 충실도를 달성하지만, MSDM은 계산 비용이 낮으면서도 비슷한 수준의 이미지 품질을 제공함을 보여주었습니다. 대장내시경(MedVQA-GI) 및 방사선학(ROCOv2) 데이터셋을 사용하여 정량적 및 의료 전문가의 정성적 평가를 통해 각 접근 방식의 장단점을 분석했습니다.