본 논문은 의료 영상 진단에서 과거 기록 통합 및 질병 진행 분석의 중요성을 강조하며, 이를 위해 기존의 단일 의료 영상 질의응답(MedVQA) 데이터셋의 한계를 극복하는 새로운 데이터셋 MMXU를 제시합니다. MMXU는 두 번의 환자 방문 간 특정 영역의 변화를 식별하는 데 중점을 두고, 현재와 과거 환자 데이터를 모두 포함하는 다중 이미지 질문을 가능하게 합니다. 기존 대규모 비전-언어 모델(LVLMs)의 한계를 보여주고, 과거 기록을 통합하는 MedRecord-Augmented Generation (MAG) 접근 방식을 제안하여 진단 정확도를 20% 이상 향상시키는 결과를 얻었습니다. MMXU 데이터셋은 GitHub에서 공개됩니다.