의료 분야에서 효과적인 임상 의사 결정을 지원하기 위해, 다양한 증거 출처를 기반으로 하는 반복적이고 다중 모드 추론이 필요하다. 본 연구에서는 의료 분야의 다중 모드 추론 능력을 향상시키기 위한 두 단계의 post-training 파이프라인인 \textit{MedE$^2$}를 제안한다. Stage-I에서는 2,000개의 텍스트 데이터 샘플을 사용하여 추론 행동을 유도하고, Stage-II에서는 1,500개의 엄선된 다중 모드 의료 사례를 사용하여 모델의 추론 능력을 향상시킨다. 실험 결과, \textit{MedE$^2$}를 사용한 모델이 여러 의료 다중 모드 벤치마크에서 기존 모델들을 능가하는 성능을 보였다.