본 논문은 전문가의 노력을 최소화하는 제로샷 의료 영상 분할 파이프라인을 제시합니다. 기존의 딥러닝 기반 의료 영상 분할 방법들이 방대한 데이터셋에 대한 어노테이션이나 새로운 케이스마다의 프롬프트 제공을 필요로 하는 것과 달리, 본 논문의 방법은 기존의 비전-언어 및 분할 기반 모델들을 활용합니다. 의료 영상과 과업 정의 (예: "안저 영상에서 시신경 유두 분할")가 주어지면, grounding 모델을 이용하여 초기 경계 상자를 생성하고, 시각적 프롬프트 강화 모듈을 통해 프롬프트를 개선한 후, 프롬프트 가능 분할 모델을 사용하여 최종 마스크를 생성합니다. 도메인 격차와 결과 검증 문제를 해결하기 위해, 기반 모델 표현과 의료 입력을 정렬하는 학습 가능한 어댑터 세트를 갖춘 테스트 시간 적응 프레임워크를 도입합니다. 이때, 베이지안 최적화를 통해 ground truth 레이블 없이 proxy 검증 모델로 하이퍼파라미터를 최적화합니다. 7개의 다양한 의료 영상 데이터셋에서 평가하여 유망한 결과를 보였으며, 적절한 분해 및 테스트 시간 적응을 통해 약하게 프롬프트된 대화형 기반 모델과 경쟁력 있는 성능을 보입니다.