Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

De la retroalimentación a las listas de verificación: evaluación fundamentada de notas clínicas generadas por IA

Created by
  • Haebom

Autor

Karen Zhou, John Giorgi, Pranav Mani, Peng Xu, Davis Liang, Chenhao Tan

Describir

En este artículo, proponemos un proceso que transforma sistemáticamente la retroalimentación de usuarios reales en una lista de verificación estructurada para abordar el problema de que las métricas automatizadas existentes para evaluar la calidad de los historiales médicos generados por IA no se ajustan a las preferencias reales de los médicos. Utilizando más de 21 000 historiales médicos preparados bajo las disposiciones de seguridad de la HIPAA, demostramos que la lista de verificación propuesta, basada en la retroalimentación, supera a los métodos existentes en términos de cobertura, diversidad y capacidad predictiva de la evaluación humana. Los resultados experimentales demuestran que la lista de verificación es robusta ante factores que degradan la calidad, presenta una alta coherencia con las preferencias de los médicos y tiene valor práctico como metodología de evaluación. En un entorno de investigación presencial, esta lista de verificación puede ayudar a identificar historiales que no cumplen con los estándares de calidad establecidos.

Takeaways, Limitations

Takeaways:
Presentación de un método de evaluación de calidad objetivo y escalable para registros médicos generados por IA
Desarrollo de una lista de verificación de evaluación que refleje las preferencias reales de los médicos
Presentando la posibilidad de construir un sistema de evaluación eficiente utilizando evaluadores basados en LLM
Proporcionar una metodología de evaluación práctica que sea robusta ante los factores de degradación de la calidad.
Limitations:
Este es un resultado de evaluación de un entorno de investigación fuera de línea y requiere mayor verificación cuando se aplica a un entorno clínico real.
Falta de discusión sobre el impacto que el proceso de anonimización de datos para cumplir con las disposiciones de seguridad de HIPAA puede tener en los resultados de la evaluación.
Se necesitan más investigaciones para determinar la generalización de la lista de verificación propuesta y su aplicabilidad a diversos entornos de atención médica.
👍