Bài báo này đề cập đến vấn đề ảo giác trong các mô hình ngôn ngữ quy mô lớn (LLM) có liên quan đến y khoa khi trả lời các câu hỏi của bệnh nhân. Khác với các nghiên cứu trước đây tập trung vào việc đánh giá kiến thức y khoa của LLM thông qua các câu hỏi thi y khoa chuẩn hóa, nghiên cứu này phân tích ảo giác trong các câu trả lời của LLM cho các câu hỏi y khoa từ bệnh nhân thực tế. Để đạt được điều này, chúng tôi giới thiệu MedHalu, một chuẩn mực mới bao gồm nhiều chủ đề y khoa và phản ứng ảo giác do LLM tạo ra, đồng thời chúng tôi chú thích chi tiết các loại ảo giác và phân đoạn văn bản. Hơn nữa, chúng tôi đề xuất MedHaluDetect, một khuôn khổ toàn diện để đánh giá khả năng phát hiện ảo giác của LLM, và nghiên cứu mức độ dễ bị tổn thương của ba nhóm cá nhân trước ảo giác y khoa: chuyên gia y tế, LLM và người bình thường. Kết quả của chúng tôi cho thấy LLM hoạt động kém hơn đáng kể so với chuyên gia y tế và, trong một số trường hợp, người bình thường trong việc phát hiện ảo giác. Chúng tôi đề xuất một phương pháp tiếp cận có sự tham gia của chuyên gia, tích hợp suy luận của chuyên gia vào dữ liệu đầu vào của LLM, do đó cải thiện hiệu suất phát hiện ảo giác của LLM (ví dụ: cải thiện 6,3% điểm macro-F1 đối với GPT-4).