Bài báo này là bài tổng quan hệ thống đầu tiên xem xét những tiến bộ và hạn chế của các mô hình ngôn ngữ quy mô lớn (LLM) trong chăm sóc sức khỏe. Chúng tôi nhấn mạnh rằng LLM vẫn còn thiếu các khả năng suy luận có hệ thống, minh bạch và có thể kiểm chứng, vốn là những yếu tố cần thiết cho thực hành lâm sàng, và phân tích quá trình chuyển đổi từ việc tạo câu trả lời một bước sang phát triển các LLM được thiết kế riêng cho lập luận y khoa. Chúng tôi đề xuất một phân loại các kỹ thuật tăng cường suy luận, được phân loại theo chiến lược đào tạo (ví dụ: tinh chỉnh học có giám sát, học tăng cường) và cơ chế kiểm tra (ví dụ: kỹ thuật nhắc nhở, hệ thống đa tác tử). Chúng tôi phân tích việc áp dụng các kỹ thuật này trên nhiều phương thức dữ liệu khác nhau (văn bản, hình ảnh, mã) và các ứng dụng lâm sàng quan trọng như chẩn đoán, giáo dục và lập kế hoạch điều trị. Chúng tôi cũng xem xét sự phát triển của các tiêu chuẩn đánh giá từ các biện pháp đo lường độ chính xác đơn giản đến các đánh giá phức tạp về chất lượng suy luận và khả năng diễn giải trực quan. Phân tích 60 nghiên cứu chính được công bố từ năm 2022 đến năm 2025, chúng tôi xác định những thách thức quan trọng, chẳng hạn như khoảng cách giữa độ tin cậy và khả năng xảy ra và nhu cầu suy luận đa phương thức cơ bản, đồng thời đề xuất các hướng đi trong tương lai để xây dựng AI chăm sóc sức khỏe hiệu quả, mạnh mẽ và có trách nhiệm về mặt xã hội kỹ thuật.