Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MedHalu : Hallucinations dans les réponses aux questions de santé par grands modèles linguistiques

Created by
  • Haebom

Auteur

Vibhor Agarwal, Yiqiao Jin, Mohit Chandra, Munmun De Choudhury, Srijan Kumar, Nishanth Sastry

Contour

Cet article aborde le problème des hallucinations dans les modèles de langage à grande échelle (MLH) médicalement pertinents répondant aux questions des patients. Contrairement aux études précédentes qui se concentraient sur l'évaluation des connaissances médicales des LLM au moyen de questions d'examen médical standardisées, cette étude analyse les hallucinations dans les réponses des LLM à des questions médicales posées par de vrais patients. Pour ce faire, nous présentons MedHalu, un nouveau référentiel composé de divers sujets médicaux et de réponses d'hallucinations générées par les LLM, et nous annotons en détail les types d'hallucinations et les segments de texte. De plus, nous proposons MedHaluDetect, un cadre complet d'évaluation des capacités de détection des hallucinations des LLM, et étudions la vulnérabilité de trois groupes de personnes aux hallucinations médicales : les professionnels de santé, les LLM et les non-professionnels. Nos résultats montrent que les LLM obtiennent des résultats significativement moins bons que les professionnels de santé et, dans certains cas, que les non-professionnels dans la détection des hallucinations. Nous proposons une approche impliquant des experts qui intègre les inférences des experts dans les entrées LLM, améliorant ainsi les performances de détection des hallucinations des LLM (par exemple, une amélioration de 6,3 % du score macro-F1 pour GPT-4).

Takeaways, Limitations

Takeaways:
Nous présentons un benchmark d'hallucinations médicales MedHalu et un cadre d'évaluation MedHaluDetect basé sur de vraies questions de patients.
Empiriquement, nous démontrons que les LLM ont des capacités de détection des hallucinations médicales significativement inférieures à celles des professionnels de la santé et du grand public.
Suggérant la possibilité d'améliorer les performances de détection des hallucinations du LLM grâce à la participation d'experts.
Fournir des Takeaways importants pour garantir la sécurité et la fiabilité du système de fourniture d'informations médicales basé sur LLM.
Limitations:
Limitations de la taille et de la diversité des données de l'indice de référence MedHalu.
Limitations sur les types de modèles LLM impliqués dans l’étude.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des méthodes de participation des experts et leur applicabilité aux contextes médicaux réels.
Une analyse plus détaillée des différents types d’hallucinations et de leur gravité est nécessaire.
👍