Este artículo aborda el problema de las alucinaciones en modelos de lenguaje a gran escala (LLM) médicamente relevantes que responden a preguntas de pacientes. A diferencia de estudios previos que se centraron en evaluar el conocimiento médico de los LLM mediante preguntas de exámenes médicos estandarizados, este estudio analiza las alucinaciones en las respuestas de los LLM a preguntas médicas de pacientes reales. Para lograr esto, presentamos MedHalu, un nuevo punto de referencia compuesto por varios temas médicos y respuestas de alucinaciones generadas por LLM, y anotamos los tipos de alucinaciones y segmentos de texto en detalle. Además, proponemos MedHaluDetect, un marco integral para evaluar las capacidades de detección de alucinaciones de los LLM, y estudiamos la vulnerabilidad de tres grupos de personas a las alucinaciones médicas: profesionales médicos, LLM y legos. Nuestros resultados muestran que los LLM tienen un rendimiento significativamente peor que los profesionales médicos y, en algunos casos, los legos en la detección de alucinaciones. Proponemos un enfoque con participación de expertos que integra inferencias de expertos en las entradas de los LLM, mejorando así el rendimiento de detección de alucinaciones de los LLM (por ejemplo, una mejora del 6,3 % en la puntuación macro-F1 para GPT-4).