Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MIMIC-\RNum{4}-Ext-22MCTS: Bộ dữ liệu chuỗi thời gian lâm sàng 22 triệu sự kiện với dấu thời gian tương đối để dự đoán rủi ro

Created by
  • Haebom

Tác giả

Jing Wang, Xing Niu, Juyong Kim, Jie Shen, Tong Zhang, Jeremy C. Weiss

Phác thảo

Dựa trên tập dữ liệu MIMIC-IV-Note, chúng tôi phát hành tập dữ liệu MIMIC-IV-Ext-22MCTS, chứa 22.588.586 sự kiện chuỗi thời gian lâm sàng. Để giải quyết vấn đề về khối lượng lớn và thiếu thông tin thời gian rõ ràng trong MIMIC-IV-Note, chúng tôi đề xuất một khuôn khổ mới 1) phân đoạn hồ sơ bệnh án khổng lồ thành các đoạn văn bản nhỏ, 2) trích xuất các đoạn có khả năng chứa các sự kiện lâm sàng bằng cách sử dụng BM25 theo ngữ cảnh và tìm kiếm ngữ nghĩa theo ngữ cảnh, và 3) xác định hoặc suy ra thông tin thời gian của các đoạn văn bản bằng mô hình Llama-3.1-8B. Mô hình BERT tinh chỉnh sử dụng tập dữ liệu này cho thấy độ chính xác được cải thiện 10% trong việc trả lời câu hỏi y khoa và 3% trong việc ghép nối thử nghiệm lâm sàng, trong khi mô hình GPT-2 tạo ra kết quả đáng tin cậy hơn cho các câu hỏi lâm sàng.

Takeaways, Limitations

Takeaways:
ĐóNg góp vào nghiên cứu máy học trong chăm sóc sức khỏe bằng cách phát hành bộ dữ liệu sự kiện chuỗi thời gian lâm sàng quy mô lớn, MIMIC-IV-Ext-22MCTS.
Khung đề xuất được chứng minh là có hiệu quả trong việc trích xuất các sự kiện lâm sàng và thông tin thời gian từ dữ liệu văn bản y tế phi cấu trúc quy mô lớn.
Các mô hình được tinh chỉnh chứng minh hiệu suất được cải thiện trong các nhiệm vụ trả lời câu hỏi y tế và kết hợp thử nghiệm lâm sàng.
Limitations:
Do những hạn chế cố hữu của dữ liệu MIMIC-IV-Note (ví dụ: không có thông tin về thời gian), nên có những hạn chế về tính đầy đủ và chính xác của tập dữ liệu.
Hiệu suất của khuôn khổ đề xuất phụ thuộc vào mô hình ngôn ngữ được sử dụng (Llama-3.1-8B) và phương pháp truy xuất.
Cần nghiên cứu thêm để xác định khả năng khái quát hóa trên nhiều lĩnh vực y tế và bệnh tật.
👍