의료 영상 분할은 생명 의학 발견에 필수적입니다. 기존 방법들은 일반화가 부족하고 새로운 임상 적용을 위해 광범위하고 시간이 많이 소요되는 수동 주석이 필요합니다. 본 논문에서는 의료 영상 및 비디오 분할을 위한 텍스트 프롬프트 가능한 의료 분할 모델인 MedSAM-3을 제안합니다. Segment Anything Model (SAM) 3 아키텍처를 의미론적 개념 레이블과 함께 의료 영상에 미세 조정함으로써, MedSAM-3은 의료 Promptable Concept Segmentation (PCS)을 가능하게 하여 기하학적 프롬프트만이 아닌 개방형 어휘 텍스트 설명을 통해 해부학적 구조를 정확하게 타겟팅할 수 있게 합니다. 또한, 복잡한 추론과 반복적 개선을 에이전트-인-더-루프 워크플로우에서 수행하기 위해 Multimodal Large Language Models (MLLMs)를 통합하는 MedSAM-3 Agent를 소개합니다. X-ray, MRI, 초음파, CT, 비디오를 포함한 다양한 의료 영상 모달리티에 걸쳐 광범위한 실험을 통해 본 접근 방식이 기존 전문 모델 및 기반 모델보다 훨씬 우수한 성능을 보임을 입증했습니다.