본 논문은 의료 영상-언어 모델의 성능 향상을 위해 크기 확장, 미세 조정, 지시 조정을 통해 BiomedGPT-Large와 BiomedGPT-XLarge 두 가지 모델을 개발했습니다. 이 모델들은 인코더-디코더 기반 트랜스포머 아키텍처를 기반으로 하며, 이미지 분류, 텍스트 이해, 텍스트 요약, 질문 답변, 시각적 질문 답변, 이미지 캡션 생성 등 6가지 다양한 의료 영상-언어 작업을 위한 23개의 벤치마크 데이터셋으로 미세 조정되었습니다. 기존 BiomedGPT-Base 모델 및 다른 최신 모델들과의 비교 분석과 더불어, 대규모 다중 모드 의료 지시 조정 데이터셋을 사용한 지시 조정을 통해 제로샷 학습 성능과 정렬 정확도를 평가했습니다.