본 논문은 의료 영상 분석에서 딥러닝 기반 솔루션의 채택을 제한하는 주요 문제인 주석 데이터의 부족과 해석 가능성 부족을 해결하기 위해, 대규모 비전-언어 모델(LVLM)을 활용하는 CBVLM(Concept Bottleneck Vision-Language Model)을 제안한다. CBVLM은 LVLM을 통해 이미지 내 개념의 유무를 파악하고, 이를 기반으로 이미지를 분류한다. 또한, 상황 학습을 위해 최적의 예시를 선택하는 검색 모듈을 통합하여 주석 비용을 줄이고 해석 가능성을 높인다. 네 개의 의료 데이터셋과 열두 개의 LVLM을 대상으로 한 광범위한 실험을 통해 CBVLM이 기존 방법론보다 우수한 성능을 보임을 입증한다.