본 논문은 의료 영상-언어 모델(Med-VLMs)의 최근 발전에 대한 종합적인 검토를 제공합니다. Med-VLMs는 시각 및 텍스트 데이터를 통합하여 의료 결과를 향상시키는 모델입니다. 논문에서는 Med-VLMs의 기본 기술, 일반 모델을 복잡한 의료 작업에 적용하는 방법, 의료 분야에서의 응용 사례를 논의합니다. 임상 실습, 교육 및 환자 치료에 대한 Med-VLMs의 변혁적인 영향과 데이터 부족, 좁은 작업 일반화, 해석 가능성 문제, 공정성, 책임성 및 개인 정보 보호와 같은 윤리적 문제를 포함한 과제를 강조합니다. 불균등한 데이터셋 분포, 계산 요구 사항 및 규제 장벽으로 인해 이러한 한계가 더욱 악화됩니다. 의료 워크플로우에 안전하게 통합하려면 엄격한 평가 방법과 강력한 규제 프레임워크가 필수적입니다. 미래 방향으로는 대규모 다양한 데이터셋 활용, 교차 모달 일반화 개선 및 해석 가능성 향상이 포함됩니다. 연합 학습, 경량 아키텍처 및 전자 건강 기록(EHR) 통합과 같은 혁신은 접근성을 민주화하고 임상 관련성을 향상시키는 경로로 탐구됩니다. 본 검토는 Med-VLMs의 강점과 한계에 대한 포괄적인 이해를 제공하여 의료 분야에서의 윤리적이고 균형 잡힌 채택을 촉진하는 것을 목표로 합니다.