Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LLMEval-Med : une référence clinique concrète pour les masters de médecine validés par un médecin

Created by
  • Haebom

Auteur

Ming Zhang, Yujiong Shen, Zelin Li, Huayu Sha, Binze Hu, Yuhui Wang, Chenhao Huang, Shichun Liu, Jingqi Tong, Changhao Jiang, Mingxu Chai, Zhiheng Xi, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang

Contour

LLMEval-Med est une nouvelle référence pour l'évaluation des modèles linguistiques à grande échelle (MLH) dans le domaine de la santé. Remédiant aux limites des référentiels existants en matière de conception des questions (principalement à choix multiples), de sources de données (souvent non issues de scénarios cliniques réels) et de méthodes d'évaluation (absence d'évaluation des inférences complexes), LLMEval-Med comprend 2 996 questions générées à partir de dossiers médicaux réels et de scénarios cliniques conçus par des experts, couvrant cinq domaines clés de la santé. LLMEval-Med utilise un pipeline d'évaluation automatisé intégrant des listes de contrôle élaborées par des experts et un cadre de jugement LLM. LLMEval-Med valide les scores des machines grâce à une analyse de concordance homme-machine et affine dynamiquement les listes de contrôle et les invites en fonction des retours d'experts pour garantir leur fiabilité. Treize LLM (modèles médicaux professionnels, modèles open source et modèles fermés) ont été évalués sur LLMEval-Med, fournissant des informations précieuses sur le déploiement sûr et efficace des LLM dans le domaine de la santé. L'ensemble de données est accessible au public à l'adresse https://github.com/llmeval/LLMEval-Med .

Takeaways, Limitations

Takeaways:
Fournir une nouvelle référence d'évaluation LLM médicale basée sur des dossiers médicaux réels et des scénarios cliniques.
ÉValuation efficace et objective grâce à des pipelines d’évaluation automatisés et au cadre LLM-as-Judge.
Améliorer la fiabilité des évaluations et l’amélioration continue grâce à l’analyse du consensus homme-machine.
Fournit un aperçu de l'application des LLM dans le domaine médical en fournissant des résultats d'analyse comparative de divers types de LLM.
Augmentation de la reproductibilité et de l’évolutivité de la recherche grâce aux ensembles de données publics.
Limitations:
Il faudra peut-être élargir à l’avenir le nombre de questions posées dans le cadre de l’évaluation de référence et l’éventail des domaines médicaux couverts.
Un alignement parfait avec les paramètres cliniques réels peut s’avérer difficile.
Des recherches supplémentaires pourraient être nécessaires pour améliorer davantage l’objectivité de la méthode d’évaluation.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des modèles autres que les 13 LLM actuellement évalués.
👍