Dựa trên tập dữ liệu MIMIC-IV-Note, chúng tôi phát hành tập dữ liệu MIMIC-IV-Ext-22MCTS, chứa 22.588.586 sự kiện chuỗi thời gian lâm sàng. Để giải quyết vấn đề về khối lượng lớn và thiếu thông tin thời gian rõ ràng trong MIMIC-IV-Note, chúng tôi đề xuất một khuôn khổ mới 1) phân đoạn hồ sơ bệnh án khổng lồ thành các đoạn văn bản nhỏ, 2) trích xuất các đoạn có khả năng chứa các sự kiện lâm sàng bằng cách sử dụng BM25 theo ngữ cảnh và tìm kiếm ngữ nghĩa theo ngữ cảnh, và 3) xác định hoặc suy ra thông tin thời gian của các đoạn văn bản bằng mô hình Llama-3.1-8B. Mô hình BERT tinh chỉnh sử dụng tập dữ liệu này cho thấy độ chính xác được cải thiện 10% trong việc trả lời câu hỏi y khoa và 3% trong việc ghép nối thử nghiệm lâm sàng, trong khi mô hình GPT-2 tạo ra kết quả đáng tin cậy hơn cho các câu hỏi lâm sàng.