본 연구는 폐 결절의 악성 여부 예측을 위해 방사선사의 평가에서 파생된 의미적 특징을 통합하여, 임상적으로 관련성이 높고, 견고하며, 설명 가능한 영상 특징을 학습하도록 모델을 유도하는 것을 목표로 한다. 사전 훈련된 Contrastive Language-Image Pretraining (CLIP) 모델을 파라미터 효율적인 미세 조정 기법으로 미세 조정하여 영상 및 의미적 텍스트 특징을 정렬하고 1년 이내의 폐암 진단을 예측했다. 국립 폐 스크리닝 시험(NLST) 데이터셋에서 AUROC 0.901, AUPRC 0.776으로 최첨단 모델을 능가했으며, 외부 데이터셋에서도 견고한 결과를 보였다. 또한 CLIP을 사용하여 결절 경계(AUROC: 0.807), 결절 일관성(0.812), 흉막 부착(0.840)과 같은 의미적 특징에 대한 제로샷 추론을 수행했다.