본 논문은 의료 영상 이해를 위한 다중 작업(탐지, 위치 확인, 계수)에 초점을 맞춰 비전-언어 모델(VLMs)의 미세 조정을 연구합니다. MedMultiPoints 데이터셋을 사용하여 각 작업을 지시어 기반 프롬프트로 재구성하고, Qwen2.5-VL-7B-Instruct 모델을 LoRA를 이용하여 다중 작업 조합으로 미세 조정합니다. 실험 결과, 다중 작업 학습은 강건성과 정확도를 향상시키지만, 일부 경우 신뢰성 저하를 야기할 수 있음을 보여줍니다. 일반적인 VLM을 프롬프트 기반 미세 조정을 통해 특정 의료 작업에 적용하는 잠재력을 강조하며, 설명 가능하고 다용도의 의료 AI를 향한 유망한 단계를 제시합니다. 코드, 모델 가중치 및 스크립트는 GitHub에서 공개됩니다.