본 논문은 다양한 실제 임상 데이터에 적용 시 성능 저하를 보이는 기존의 딥러닝 기반 CT 영상 분석 모델의 한계를 극복하기 위해, 대규모 3D CT 영상을 사전 학습한 Vision-Language 모델인 OpenVocabCT를 제안한다. OpenVocabCT는 대규모 CT-RATE 데이터셋을 사용하여 진단 보고서를 세분화된 장기 수준의 설명으로 분해하고, 다중 입자 대조 학습을 통해 텍스트 프롬프트 기반의 보편적인 텍스트 구동 분할을 수행한다. 기존 방법들보다 우수한 성능을 보이는 것을 9개의 공개 데이터셋을 이용한 하위 분할 작업 평가를 통해 입증하며, 코드, 데이터셋, 모델을 공개한다.