Cet article aborde le problème des hallucinations dans les modèles de langage à grande échelle (MLH) médicalement pertinents répondant aux questions des patients. Contrairement aux études précédentes qui se concentraient sur l'évaluation des connaissances médicales des LLM au moyen de questions d'examen médical standardisées, cette étude analyse les hallucinations dans les réponses des LLM à des questions médicales posées par de vrais patients. Pour ce faire, nous présentons MedHalu, un nouveau référentiel composé de divers sujets médicaux et de réponses d'hallucinations générées par les LLM, et nous annotons en détail les types d'hallucinations et les segments de texte. De plus, nous proposons MedHaluDetect, un cadre complet d'évaluation des capacités de détection des hallucinations des LLM, et étudions la vulnérabilité de trois groupes de personnes aux hallucinations médicales : les professionnels de santé, les LLM et les non-professionnels. Nos résultats montrent que les LLM obtiennent des résultats significativement moins bons que les professionnels de santé et, dans certains cas, que les non-professionnels dans la détection des hallucinations. Nous proposons une approche impliquant des experts qui intègre les inférences des experts dans les entrées LLM, améliorant ainsi les performances de détection des hallucinations des LLM (par exemple, une amélioration de 6,3 % du score macro-F1 pour GPT-4).