본 논문은 의료 영상 진단에서 시각 언어 모델(VLMs)의 성능이 인구 통계적 하위 집단에 따라 어떻게 달라지는지, 특히 맥락 내 학습(ICL)을 사용할 때의 성능 차이를 연구합니다. 피부 병변 악성 예측과 흉부 X선 촬영을 통한 기흉 검출이라는 두 가지 의료 영상 작업에서, 데모 예시의 인구 통계적 구성이 VLM 성능에 미치는 영향을 분석합니다. 분석 결과, ICL은 (1) 프롬프트에서 하위 집단별 질병 기저 비율을 학습하고, (2) 하위 집단별 질병 기저 비율을 통제한 후에도 인구 통계적 그룹 간에 다르게 예측하게 만드는 등 여러 가지 메커니즘을 통해 모델 예측에 영향을 미침을 밝혔습니다. 현재 VLMs을 위한 최적의 프롬프트 작성법(특히 인구 통계적 하위 집단 성능 검토 및 라벨의 기저 비율을 전체 및 하위 집단 수준에서 목표 분포와 일치시키는 것)을 제시하고, 이러한 모델에 대한 이론적 이해를 향상시키기 위한 후속 연구 방향을 제시합니다.