यह शोधपत्र चिकित्सा अनुसंधान और चिकित्सकों का समर्थन करके स्वास्थ्य सेवा में सुधार लाने हेतु बड़े पैमाने के भाषा मॉडल (एलएलएम) की क्षमता पर विचार करता है। हालाँकि, नए अनुसंधान और विकास के अनुरूप चिकित्सा अनुशंसाएँ विकसित होने पर स्थिर प्रशिक्षण आँकड़ों पर उनकी निर्भरता एक बड़ा जोखिम पैदा करती है। यदि एलएलएम में पुराना चिकित्सा ज्ञान बना रहता है, तो वे हानिकारक सलाह दे सकते हैं या नैदानिक तर्क कार्यों में विफल हो सकते हैं। इस समस्या की जाँच के लिए, हम व्यवस्थित समीक्षाओं से प्राप्त दो नए प्रश्न-उत्तर (क्यूए) डेटासेट प्रस्तुत करते हैं: मेडरेवक्यूए (सामान्य जैव-चिकित्सा ज्ञान को कवर करने वाले 16,501 क्यूए जोड़े) और मेडचेंजक्यूए (512 क्यूए जोड़ों का एक उपसमूह जहाँ चिकित्सा सहमति समय के साथ बदली है)। आठ प्रमुख एलएलएम पर डेटासेट मूल्यांकन सभी मॉडलों में पुराने ज्ञान पर एक समान निर्भरता प्रकट करते हैं। इसके अलावा, हम इस परिघटना की व्याख्या करने के लिए अप्रचलित पूर्व-प्रशिक्षण आँकड़ों और प्रशिक्षण रणनीतियों के प्रभाव का विश्लेषण करते हैं और शमन के लिए भविष्य की दिशाएँ प्रस्तावित करते हैं, जिससे अधिक अद्यतित और विश्वसनीय चिकित्सा एआई प्रणालियों के विकास की नींव रखी जा सके।