본 논문은 대규모 언어 모델(LLMs)이 의료 연구 및 의사를 지원함으로써 의료 분야를 향상시킬 수 있는 잠재력을 가지고 있지만, 정적인 훈련 데이터에 의존하기 때문에 새로운 연구 및 발전에 따라 의료 권고안이 변화할 때 주요 위험이 발생한다는 점을 다룹니다. LLMs가 구식 의학 지식을 기억하면 유해한 조언을 제공하거나 임상 추론 과제에 실패할 수 있습니다. 이 문제를 조사하기 위해, 체계적 검토에서 파생된 두 가지 새로운 질문-응답(QA) 데이터 세트인 MedRevQA(일반적인 생의학 지식을 다루는 16,501개의 QA 쌍)와 MedChangeQA(의료 합의가 시간이 지남에 따라 변한 512개의 QA 쌍의 하위 집합)를 제시합니다. 8개의 주요 LLMs에 대한 데이터 세트 평가는 모든 모델에서 구식 지식에 대한 일관된 의존성을 보여줍니다. 또한 이 현상을 설명하기 위해 쓸모없는 사전 훈련 데이터와 훈련 전략의 영향을 분석하고, 완화를 위한 향후 방향을 제안하여 더욱 최신적이고 신뢰할 수 있는 의료 AI 시스템을 개발하기 위한 기반을 마련합니다.