Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MedVAL : Vers une validation de textes médicaux de niveau expert avec des modèles linguistiques

Created by
  • Haebom

Auteur

Asad Aali, Vasiliki Bikia, Maya Varma, Nicole Chiou, Sophie Ostmeier, Arnav Singhvi, Magdalini Paschali, Ashwin Kumar, Andrew Johnston, Karimar Amador-Martinez, Eduardo Juan Perez Guerrero, Paola Naovi Cruz Rivera, Sergios Gatidis, Christian Bluethgen, Eduardo Pontes Reis, Eddy D. Zandee van Rilland, Poonam Laxmappa Hosamani, Kevin R Keet, Minjoung Go, Evelyn Ling, David B. Larson, Curtis Langlotz, Roxana Daneshjou, Jason Hom, Sanmi Koyejo, Emily Alsentzer et Akshay S. Chaudhari.

Contour

Cet article présente MedVAL, un nouveau cadre d'apprentissage auto-supervisé permettant d'évaluer la précision et la sécurité des modèles de langage (ML) utilisés dans le milieu médical. Pour pallier les limites des méthodes d'évaluation manuelle existantes par les médecins (coût et manque de résultats référencés par des experts), MedVAL forme un ML évaluateur qui évalue la cohérence factuelle des textes médicaux générés par les ML à l'aide de données synthétiques sans étiquettes de médecins ni résultats de référence. Pour évaluer les performances de MedVAL, nous introduisons l'ensemble de données MedVAL-Bench, composé de 840 résultats annotés par des médecins selon des niveaux de risque et des catégories d'erreur. Des expériences sur six tâches médicales diverses et dix ML de pointe montrent que le réglage fin de MedVAL améliore significativement la concordance entre les ML existants et les médecins (p < 0,001), augmentant le score F1 moyen de 66 % à 83 % et améliorant le score de classification de sécurité par échantillon jusqu'à 86 %. Cette étude améliore de 8 % les performances du LM propriétaire le plus performant (GPT-4o) et publie la base de code MedVAL, MedVAL-Bench, ainsi que le LM open source le plus performant, MedVAL-4B, pour soutenir un parcours d'intégration clinique évolutif et sensible aux risques. Il s'agit de la première preuve que le LM peut atteindre des capacités de vérification de niveau expert sur les textes médicaux.

Takeaways, Limitations

Takeaways:
Nous présentons MedVAL, un cadre d'apprentissage auto-supervisé efficace et évolutif pour évaluer l'exactitude et la sécurité des textes médicaux.
Permettant l'évaluation de la cohérence factuelle du texte médical généré par LM sans étiquettes de médecin ni sortie de référence.
Amélioration des performances de divers LM pour augmenter l'accord avec le médecin (score F1 moyen de 66% à 83%).
Assurer la reproductibilité et l'évolutivité de la recherche grâce à la publication de MedVAL-4B, le LM open source le plus performant.
LM est le premier à démontrer des performances proches de celles d’un expert en matière de vérification de textes médicaux.
Limitations:
La taille de l'ensemble de données MedVAL-Bench peut être limitée. Un entraînement avec davantage de données est nécessaire pour améliorer encore les performances.
ÉTant donné qu’il a été formé à l’aide de données synthétiques, les performances de généralisation sur des données médicales réelles doivent être vérifiées.
Il est peu probable que tous les types d'erreurs médicales soient parfaitement détectés. Des améliorations continues et des recherches plus poussées sont nécessaires.
Il se peut que cette étude ne reflète pas pleinement la complexité et la diversité du secteur de la santé. Des tests supplémentaires sont nécessaires dans divers domaines et environnements de santé.
👍