본 논문은 기존 다중 모달 대규모 언어 모델(MLLM)의 심전도(ECG) 해석의 두 가지 주요 한계점, 즉 시계열 신호와 시각적 ECG 표현 간의 부족한 다중 모달 시너지와 진단을 세분화된 파형 증거와 연결하는 설명력의 부족을 해결하기 위해 GEM을 제시한다. GEM은 심전도 시계열, 12-리드 ECG 이미지, 텍스트를 통합하는 최초의 MLLM으로, 이중 인코더 프레임워크, 교차 모달 정렬, 지식 기반 지시 생성을 통해 특징 기반 분석, 증거 기반 추론, 임상의와 유사한 진단 과정을 가능하게 한다. 특히, 진단을 측정 가능한 매개변수(예: QRS/PR 간격)와 연결하는 고세분도 기반 데이터(ECG-Grounding)를 생성한다. 또한, MLLM의 기반 ECG 이해 능력을 종합적으로 평가하기 위해 임상적으로 동기 부여된 벤치마크인 기반 ECG 이해 작업을 제안한다. 기존 및 제안된 벤치마크에 대한 실험 결과는 GEM이 예측 성능, 설명력, 기반 모두에서 상당한 향상을 보임을 보여준다.