본 논문은 다양한 의료 영상 분할 작업에서 정확도를 향상시키기 위해 이미지 특징과 사용자 제공 프롬프트를 통합하는 대규모 의료 영상 분할 모델인 MedSAM을 기반으로, 텍스트 기반 프롬프트를 추가하여 복잡한 의료 영상 분할 작업에 대한 성능을 향상시킨 Organ-aware Multi-scale Text-guided Medical Image Segmentation Model (OMT-SAM)을 제안합니다. OMT-SAM은 CLIP 인코더를 사용하여 이미지와 텍스트 프롬프트를 처리하고, MedSAM의 다중 스케일 시각적 특징을 추출하여 정확한 해부학적 세부 정보를 포착합니다. FLARE 2021 데이터셋을 사용한 실험 결과, OMT-SAM은 평균 Dice 유사도 계수 0.937을 달성하여 MedSAM(0.893) 및 기타 분할 모델을 능가하는 성능을 보였습니다.