Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Truth, Trust, and Trouble: Medical AI on the Edge

Created by
  • Haebom

作者

Mohammad Anas Azeez, Rafiq Ali, Ebad Shabbir, Zohaib Hasan Siddiqui, Gautam Siddharth Kashyap, Jiechao Gao, Usman Naseem

概要

大規模な言語モデル(LLM)は自動化された医療質問応答を介してデジタルヘルスケアを革新する可能性がありますが、特にオープンソースソリューションの場合、実際には正確性、有用性、および安全性の業界標準を満たすことは困難です。 1,000以上の健康関連の質問データセットを使用して、厳格なベンチマークフレームワークを提示します。正直性、有用性、無害性に基づいてモデル性能を評価する。 Mistral-7B, BioMistral-7B-DARE, AlpaCare-13Bモデル間の事実的信頼性と安全性の間の矛盾を強調する。 AlpaCare-13Bは最も高い精度(91.7%)と無害性(0.92)を達成し、BioMistral-7B-DAREのドメイン固有のチューニングは規模が小さいにもかかわらず安全性(0.90)を向上させました。 Few-shotプロンプトは精度を78%から85%に向上させ、すべてのモデルは複雑な質問に対する有用性が低下し、臨床QAで継続的な課題を示しました。

Takeaways、Limitations

AlpaCare-13Bは高い精度と無害性を達成しました。
BioMistral-7B-DAREのドメインごとのチューニングは安全性を向上させました。
Few-shotプロンプトは精度を向上させました。
すべてのモデルは複雑な質問に対する有用性が低下しました。
モデル間の事実的信頼性と安全性との間に矛盾が存在する。
👍