Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Multimodal Medical Code Tokenizer

Created by
  • Haebom

作者

Xiaorui Su, Shvat Messica, Yepeng Huang, Ruth Johnson, Lukas Fesser, Shanghua Gao, Faryad Sahneh, Marinka Zitnik

概要

本論文は、患者電子健康記録(EHR)に基づいて学習された基礎モデルで使用される医療データトークン化方式を改善するMedTokを提案します。従来のトークン化方式は医療コードを単純なテキストトークンとして扱い、MedTokは医療コードのテキスト説明、階層的位置、他のコードとの関係(病気同時発生、薬物治療関連など)をすべて考慮します。言語モデルエンコーダとグラフエンコーダを使用してテキストと関係構造を処理し、それを統合トークン空間に量子化してモダリティ特徴と相互モダリティ情報を維持します。 MIMIC-III、MIMIC-IV、EHRShotデータセットを使用したさまざまな実験(予測、診断分類、薬物推薦、リスク階層化)で、既存のトークン化方式と比較してAUPRCを向上させ、特に薬物推薦で大きな成果を示しました。また、医療QAシステムにもMedTokを適用して性能向上を確認した。

Takeaways、Limitations

Takeaways:
医療コードのテキスト記述と関係情報の両方を活用する新しいトークン化方式MedTok提示
様々なEHRモデルと課題における従来方式と比較した性能向上を実験的に検証。
医療QAシステムなどの他の医療用途への拡張可能性の提示
特に薬物推薦課題で大きな性能向上を見せる。
Limitations:
MedTokのパフォーマンス向上はデータセットによって異なる可能性があります。 (MIMIC-III、MIMIC-IV、EHRShotの性能差)
60万を超える医療コードをすべて効果的に処理するMedTokの拡張性に関する追加の研究が必要です。
他の医療言語モデルやトークン化技術との比較分析がさらに必要です。
👍