Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MIMIC-\RNum{4}-Ext-22MCTS: A 22 Millions-Event Temporal Clinical Time-Series Dataset with Relative Timestamp for Risk Prediction

Created by
  • Haebom

作者

Jing Wang, Xing Niu, Juyong Kim, Jie Shen, Tong Zhang, Jeremy C. Weiss

概要

MIMIC-IV-Noteデータセットに基づいて、22,588,586の臨床時系列イベントを含むMIMIC-IV-Ext-22MCTSデータセットを公開します。 MIMIC-IV-Noteの膨大な量と明示的な時間情報の欠如の問題を解決するために、1)膨大な病院記録を小さなテキストチャンクに分割し、2)コンテキストBM25とコンテクストセマンティックサーチを使用して臨床イベントを含む可能性の高いチャンクを抽出し、3)Llama-3.1-8Bモデルフレームワークを提案する。このデータセットを使用して微調整されたBERTモデルは、医学的質疑応答課題で10%、臨床試験マッチング課題で3%の精度向上を示し、GPT-2モデルは臨床質問に対してより信頼できる結果を生成しました。

Takeaways、Limitations

Takeaways:
大規模臨床時系列イベントデータセットMIMIC-IV-Ext-22MCTSの開示を通じて医療分野の機械学習研究に貢献
提案されたフレームワークは、大規模な非定型医療テキストデータから臨床イベントおよび時間情報抽出に有効であることを示しています。
微調整されたモデルは、医療の質疑応答と臨床試験のマッチング課題でパフォーマンスの向上を示しました。
Limitations:
MIMIC-IV-Noteデータの本質的な制限(時間情報の欠如など)によるデータセットの完全性と正確性に対する制約の存在。
提案されたフレームワークの性能は、使用される言語モデル(Llama-3.1-8B)と検索方法に依存しています。
様々な医療分野と疾患の一般化の可能性に関するさらなる研究が必要
👍