본 논문은 임상 위험 예측을 위한 고품질 시계열 임상 이벤트를 수집하기 위해 개발된 MIMIC-IV-Ext-22MCTS 데이터셋을 공개한다. 이 데이터셋은 22,588,586개의 임상 시계열 이벤트로 구성되며, MIMIC-IV-Note의 퇴원 요약을 기반으로 한다. 긴 퇴원 요약과 타임스탬프 부재 문제를 해결하기 위해, 텍스트 청크 분할, 컨텍스트 BM25 및 의미 검색을 활용하여 임상 이벤트를 포함할 가능성이 높은 청크를 검색하고, Llama-3.1-8B 모델을 사용하여 시간 정보를 식별하거나 추론하는 새로운 프레임워크를 제안한다. 이 데이터셋을 기반으로 훈련된 모델은 의료 질문 응답 및 임상 시험 매칭과 같은 의료 응용 프로그램에서 유의미한 성능 향상을 보였다.