Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los hechos se desvanecen rápidamente: evaluación de la memorización de conocimientos médicos obsoletos en modelos de lenguaje extensos

Created by
  • Haebom

Autor

Juraj Vladika, Mahdi Dhaini, Florian Matthes

Describir

Este artículo aborda el potencial de los modelos de lenguaje a gran escala (LLM) para mejorar la atención médica al respaldar la investigación médica y a los médicos. Sin embargo, su dependencia de datos de entrenamiento estáticos plantea un riesgo significativo cuando las recomendaciones médicas evolucionan en respuesta a nuevas investigaciones y desarrollos. Los LLM pueden brindar consejos perjudiciales o fallar en tareas de razonamiento clínico si retienen conocimiento médico obsoleto. Para investigar este tema, presentamos dos nuevos conjuntos de datos de preguntas y respuestas (QA) derivados de revisiones sistemáticas: MedRevQA (16,501 pares de QA que cubren el conocimiento biomédico general) y MedChangeQA (un subconjunto de 512 pares de QA donde el consenso médico ha cambiado con el tiempo). Las evaluaciones de conjuntos de datos en ocho LLM líderes revelan una dependencia constante de conocimiento obsoleto en todos los modelos. Además, analizamos el impacto de los datos de preentrenamiento obsoletos y las estrategias de entrenamiento para explicar este fenómeno y proponer futuras direcciones para la mitigación, sentando las bases para el desarrollo de sistemas de IA médica más actualizados y confiables.

Takeaways, Limitations

Takeaways:
Destaca claramente el problema de la dependencia de conocimientos médicos obsoletos al aplicar los LLM al campo de la medicina.
Presentamos nuevos conjuntos de datos de control de calidad (MedRevQA, MedChangeQA) para evaluar problemas de conocimiento obsoletos.
Demostrar experimentalmente una confianza consistente en conocimientos obsoletos en diversos LLM.
Análisis de las causas del problema de la obsolescencia del conocimiento y sugerencias de medidas de mitigación.
Sentando las bases para el desarrollo de sistemas de inteligencia artificial médica más confiables.
Limitations:
Es necesario ampliar el tamaño del conjunto de datos presentado para realizar futuras investigaciones.
Los tipos de LLM utilizados en el análisis son limitados.
Es necesaria una mayor verificación de la eficacia de las medidas de mitigación propuestas.
👍