본 논문은 의료 응용을 위해 공개적으로 이용 가능한 생의학 말뭉치를 사용하여 사전 훈련된 10개의 의료용 대규모 언어 모델(LLM)과 2개의 의료용 비전-언어 모델(VLM)을 평가합니다. 기존 연구들은 이러한 도메인 적응형 사전 훈련이 의료 시험 질문 응답과 같은 다양한 하위 의료 작업에서 성능을 향상시킨다고 주장하지만, 본 논문은 제로샷/소수샷 프롬프팅 및 지도 학습 미세 조정 환경에서 의료용 VLM과 거의 모든 의료용 LLM이 기본 모델보다 일관되게 성능이 향상되지 않음을 보여줍니다. 이는 각 의료 모델을 기본 모델과 직접 비교하고, 제로샷/소수샷 프롬프팅에서 각 모델에 대해 프롬프트를 개별적으로 최적화하고, 비교에서 통계적 불확실성을 고려함으로써 도출된 결론입니다. 본 연구는 최첨단 일반 도메인 모델이 이미 강력한 의료 지식과 추론 능력을 보유하고 있음을 시사하며, 향후 연구의 결론을 강화하기 위한 권장 사항을 제시합니다.