Bài báo này đề cập đến tiềm năng của các mô hình ngôn ngữ quy mô lớn (LLM) trong việc cải thiện chăm sóc sức khỏe bằng cách hỗ trợ nghiên cứu y khoa và bác sĩ. Tuy nhiên, việc chúng phụ thuộc vào dữ liệu đào tạo tĩnh đặt ra một rủi ro đáng kể khi các khuyến nghị y khoa phát triển để đáp ứng với các nghiên cứu và phát triển mới. LLM có thể đưa ra lời khuyên có hại hoặc không thực hiện được các nhiệm vụ lập luận lâm sàng nếu chúng vẫn giữ lại kiến thức y khoa lỗi thời. Để nghiên cứu vấn đề này, chúng tôi trình bày hai bộ dữ liệu hỏi đáp (QA) mới được lấy từ các bài tổng quan hệ thống: MedRevQA (16.501 cặp QA bao gồm kiến thức y sinh học tổng quát) và MedChangeQA (một tập hợp con gồm 512 cặp QA trong đó sự đồng thuận y khoa đã thay đổi theo thời gian). Đánh giá bộ dữ liệu trên tám LLM hàng đầu cho thấy sự phụ thuộc nhất quán vào kiến thức lỗi thời trên tất cả các mô hình. Hơn nữa, chúng tôi phân tích tác động của dữ liệu tiền đào tạo lỗi thời và các chiến lược đào tạo để giải thích hiện tượng này và đề xuất các hướng giảm thiểu trong tương lai, đặt nền tảng cho việc phát triển các hệ thống AI y tế đáng tin cậy và cập nhật hơn.