本論文は、大規模言語モデル(LLM)が医療研究や医師を支援することで医療分野を向上させる可能性を持っていますが、静的な訓練データに依存するため、新しい研究と発展によって医療勧告が変化する際に大きなリスクが発生することを取り上げます。 LLMが旧式の医療知識を覚えていると、有害なアドバイスを提供したり、臨床推論の課題に失敗したりする可能性があります。この問題を調査するために、体系的なレビューから派生した2つの新しい質問 - 応答(QA)データセット、MedRevQA(一般的な生医学の知識をカバーする16,501個のQAペア)とMedChangeQA(医療コンセンサスが時間の経過とともに変化した512個のQAペアのサブセット)を提示します。 8つの主要なLLMのデータセット評価は、すべてのモデルで時代遅れの知識への一貫した依存性を示しています。また、この現象を説明するために、役に立たない事前トレーニングデータとトレーニング戦略の影響を分析し、緩和のための将来の方向性を提案し、より最新で信頼性の高い医療AIシステムを開発するための基盤を構築します。