Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Memorización en grandes modelos lingüísticos en medicina: prevalencia, características e implicaciones

Created by
  • Haebom

Autor

Anran Li, Lingfei Qian, Mengmeng Du, Yu Yin, Yan Hu, Zihao Sun, Yihang Fu, Erica Stutz, Xuguang Ai, Qianqian

Describir

Este artículo presenta la primera evaluación exhaustiva de la memorización de datos en modelos de lenguaje a gran escala (LLM) en el ámbito sanitario. Analizamos sistemáticamente tres escenarios de adaptación comunes: preentrenamiento continuo en un corpus médico, ajuste fino en un punto de referencia médico estándar y ajuste fino en datos clínicos reales, incluyendo más de 13.000 registros de hospitalización del Sistema de Salud de Yale New Haven. Para evaluar la frecuencia, la naturaleza, la cantidad y el impacto potencial de la memorización en los LLM. Los resultados muestran que la memorización se produce con una frecuencia significativamente mayor en todos los escenarios de adaptación que en el ámbito general, lo que sugiere implicaciones para el desarrollo y la adopción de los LLM en el ámbito sanitario. El contenido memorizado se clasifica en tres tipos: informativo (p. ej., reproducción precisa de guías clínicas y referencias biomédicas), no informativo (p. ej., descargos de responsabilidad repetitivos o lenguaje estereotipado de documentos médicos) y perjudicial (p. ej., reproducción de contenido clínico específico del conjunto de datos o sensible). Ofrecemos recomendaciones prácticas para promover la memorización beneficiosa, minimizar la memorización no informativa y mitigar la memorización perjudicial.

Takeaways, Limitations

Takeaways:
Proporciona un análisis exhaustivo de la frecuencia, las características, la cantidad y el impacto de la memorización de datos en los LLM médicos.
Clasifique los tipos de memorización en tres categorías: beneficiosa, no informativa y perjudicial, y presente claramente sus características.
Enfatizar la importancia de la memorización en el desarrollo y aplicación de los LLM médicos.
Se presentan recomendaciones prácticas para promover la memorización beneficiosa, minimizar la memorización no informativa y mitigar la memorización dañina.
Limitations:
Se necesitan más investigaciones para determinar si las características de los conjuntos de datos analizados en este estudio (por ejemplo, las características de los datos del Sistema de Salud de Yale New Haven) pueden generalizarse a otros conjuntos de datos médicos.
Se necesitan más investigaciones sobre métodos cuantitativos de medición y evaluación de los fenómenos de memorización.
Se necesitan más investigaciones para examinar las diferencias en la memorización entre diferentes arquitecturas LLM y métodos de entrenamiento.
👍