의료 분야 발전을 위한 멀티모달 대규모 언어 모델(MLLM)의 중요성을 강조하며, 단일 이미지 이해에 국한된 기존 모델의 한계를 지적합니다. 저자들은 여러 이미지 분석이 필요한 임상 워크플로우를 위해, 생물의학 문헌의 라이선스 허용 복합 이미지를 활용한 새로운 프레임워크를 제안합니다. 5단계의 컨텍스트 인식 지침 생성 패러다임을 설계하고, M3LLM이라는 의료용 멀티 이미지 멀티모달 대규모 언어 모델을 개발했습니다. 237,000개 이상의 복합 이미지와 텍스트를 분석하여 모델을 학습시켰고, 의료 전문가가 검증한 PMC-MI-Bench를 구축하여 성능을 평가했습니다. M3LLM은 다양한 시나리오에서 기존 모델보다 우수한 성능을 보였으며, MIMIC 데이터셋을 사용한 종단적 흉부 X-ray 분석에서도 뛰어난 일반화 능력을 보였습니다. 이 연구는 복합 추론이 가능한 의료용 MLLM 개발을 위한 확장 가능하고 효율적인 패러다임을 제시하며, 생물의학 문헌과 실제 임상 적용 사이의 격차를 해소합니다.