Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Created by
  • Haebom

作者

Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Chinjiang Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongyan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan

概要

脊椎疾患は世界中で6億1900万人に影響を及ぼし、AI支援診断はレベル認識、マルチモードデータセットの不足のために制限的です。脊椎疾患の臨床的意思決定は、特定の脊椎レベルで精密に推測する必要がありますが、追跡可能な臨床ベースのガイドラインデータと標準化された脊椎固有のベンチマークがないため、進行が制限されました。これにSpineMedを紹介し、これは脊椎外科医と共同で設計されたエコシステムです。 SpineMed-450kは、450,000以上のインスツルメントインスタンスを持つビデオモードで推論するための最初の大規模データセットであり、臨床ベースの評価フレームワークであるSpineBenchを提供します。 SpineMed-450kは、教科書、ガイドライン、パブリックデータセット、および約1,000の匿名化された病院のケースでキュレーションされており、質問回答、マルチターンカウンセリング、およびレポート生成のための高品質、追跡可能なデータを確保するために、2段階のLLM生成方法(ドラフトと修正)を使用して臨床医-in-the-loopパイプラインを使用します。 SpineBenchは、レベルの識別、病理学的評価、および手術計画を含む臨床的に重要な軸でモデルを評価します。最近の大規模ビジョン言語モデル(LVLM)をSpineBenchで総合的に評価した結果、微調整されたレベル別推論で体系的な弱点が明らかになった。一方、SpineMed-450kで微調整されたモデルは、すべての作業で一貫して大幅な改善を示しました。臨床医の評価は、モデルの結果の診断的明確性と実用的有用性を確認した。

Takeaways、Limitations

脊椎レベルの認識とマルチモード画像処理のための大規模データセット(SpineMed-450k)と評価フレームワーク(SpineBench)の開発。
LVLMの脊椎関連操作における弱点の確認とSpineMed-450kで微調整したモデルの性能向上を実証
臨床的有用性と診断的明確性の肯定的な臨床的評価
論文に具体的なLimitationsへの言及はありません。 (ただし、LVLMモデルの弱点に言及したものとみなして、当該モデルの性能改善の余地があるかもしれない)
👍