MedPLIB는 픽셀 수준 이해를 갖춘 새로운 엔드투엔드 다중 모드 대형 언어 모델로, 시각적 질의 응답(VQA), 임의의 픽셀 수준 프롬프트(점, 경계 상자, 자유형 모양), 그리고 픽셀 수준의 접지 기능을 지원합니다. MoE (Mixture-of-Experts) 다단계 훈련 전략을 사용하여 시각-언어 전문가 모델과 픽셀-접지 전문가 모델에 대한 별도의 훈련 단계를 거친 후 MoE를 사용하여 미세 조정합니다. 또한 복잡한 의료 영상 질의 응답 및 이미지 영역 이해를 위한 8가지 모달리티로 구성된 Medical Complex Vision Question Answering Dataset (MeCoVQA)를 소개합니다. MedPLIB는 여러 의료 시각 언어 작업에서 최첨단 결과를 달성했으며, 픽셀 접지 작업에 대한 제로샷 평가에서 mDice 메트릭 기준으로 최고의 소형 및 대형 모델보다 각각 19.7 및 15.6의 마진으로 앞섰습니다.