본 논문은 수치 시계열 데이터와 자유 텍스트 임상 보고서와 같은 멀티모달 전자 건강 기록(EHR) 데이터를 통합하여 임상 결과를 예측하는 데 잠재력을 강조합니다. 기존 연구가 개별 샘플 내의 시간적 상호 작용과 멀티모달 정보 융합에 초점을 맞춘 반면, 본 논문은 환자 간의 중요한 시간적 패턴, 특히 이상 심박수 또는 혈압과 같은 활력 징후의 추세, 그리고 이를 반영하는 임상 기록 내 텍스트 설명을 간과했다고 지적합니다. 이를 해결하기 위해, 본 연구는 멀티모달 EHR 데이터에서 의미 있는 상호 모달 시간적 패턴을 효율적으로 추출하도록 설계된 CTPD(Cross-Modal Temporal Pattern Discovery) 프레임워크를 제안합니다. 이 프레임워크는 공유된 초기 시간적 패턴 표현을 도입하고, 슬롯 어텐션을 사용하여 시간적 의미론적 임베딩을 생성합니다. 또한 상호 모달 정렬을 위한 TPNCE 대조 기반 손실과 각 모달리티의 핵심 정보를 유지하기 위한 두 개의 재구성 손실을 도입합니다. MIMIC-III 데이터베이스를 사용한 48시간 내 병원 사망률 및 24시간 표현형 분류와 같은 두 가지 임상적으로 중요한 작업에 대한 평가는 기존 접근 방식보다 우수한 성능을 보여줍니다.