Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight

Created by
  • Haebom

作者

Ugur Dinc, Jibak Sarkar, Philipp Schubert, Sabine Semrau, Thomas Weissmann, Andre Karius, Johann Brand, Bernd-Niklas Axer, Ahmed Gomaa, Pluvio Stephan, Ishita Sheth, Sogand Beirami, Annette Schwarz, Udo Gaipl, Benjamin Frey Fietkau, Florian Putz

概要

本論文は、GPT-5の放射線腫瘍学的利用可能性を評価した研究結果を提示します。 GPT-5の性能は、ACR放射線腫瘍学修練の試験(TXIT、2021)と60の実際の臨床症例ビネットを利用した2つのベンチマークによって評価されました。 TXITでは、GPT-5は92.8%の精度を達成し、GPT-4(78.8%)とGPT-3.5(62.1%)を上回りました。ビネット評価では精度(平均3.24/4)と包括性(平均3.59/4)で高い評価を受けましたが、複雑な状況ではエラーが発生しました。結論として、GPT-5は放射線腫瘍学の分野で有望ですが、臨床適用前に専門家の厳格な監督が必要であることを示唆しています。

Takeaways、Limitations

Takeaways:
GPT-5は、従来のLLMモデルよりも放射線腫瘍学の分野で優れた性能を示した。
実際の臨床事例に対する治療計画生成能力に優れている。
放射線腫瘍学教育および意思決定支援ツールとしての可能性を確認した。
Limitations:
複雑な臨床状況でエラーが発生する可能性があります。
臨床適用には専門家の厳格な検討が必須である。
評価者間の信頼性が低く(Fleiss'κ0.083)、主観的な判断の影響を排除することは困難です。
GPT-5の生成の結果の幻覚の可能性は完全に排除されなかった。
👍