본 논문은 대규모 언어 모델(LLM)이 의료 진단, 특히 치매 진단 및 치료에 기여하는 측면에서의 한계점을 조명하는 scoping review이다. LLM은 뛰어난 벤치마크 점수에도 불구하고 임상 현장에서 측정 가능한 개선을 제공하지 못하고 있다. 이는 기계 학습 모델이 패턴 인식에는 탁월하지만 실행 가능하고 해석 가능한 지침을 제공하지 못하며, 의사의 신뢰를 저해하기 때문이다. LLM의 활용은 진단 정확도나 속도를 향상시키지 못했으며, 그 주요 원인은 데이터 기반 패러다임의 한계, 즉 투명성 부족, 환각 가능성, 약한 인과 추론 능력 때문이다. 통계적 학습과 전문가 규칙 기반 지식을 결합하고 임상의를 전 과정에 참여시키는 하이브리드 접근 방식이 해석 가능성을 높이고 기존 임상 워크플로우에 더 잘 적합하다. 향후 의사결정 지원 시스템은 예측을 임상적으로 의미 있는 원인과 연결함으로써 설명 가능성을 우선시해야 하며, LLM의 언어 능력과 인간의 인과적 전문 지식을 결합하는 신경 기호 또는 하이브리드 AI가 유용하다. 하지만 설명 가능한 AI와 신경 기호 AI 또한 데이터 기반 지식 통합에 의존하며 인간 중심 접근 방식은 부족하다. 향후 연구는 정확도뿐 아니라 임상의의 이해도 향상, 워크플로우 적합성, 환자 결과 개선을 측정해야 하며, 인간-컴퓨터 상호 작용 개선에 대한 이해가 필요하다.