Este artículo investiga la eficacia de los modelos de lenguaje a gran escala (LLM) de código abierto para extraer eventos clave (motivos de ingreso, eventos hospitalarios importantes y medidas de seguimiento importantes) de los informes médicos, en particular los informes de alta. También evaluamos la incidencia de alucinaciones, que puede afectar la precisión y la fiabilidad de los LLM. Experimentos con LLM como Qwen2.5 y DeepSeek-v2 demuestran un excelente rendimiento en la extracción de motivos de ingreso y eventos ocurridos durante la hospitalización, pero presentan inconsistencias en la identificación de recomendaciones de seguimiento. Esto pone de relieve los desafíos que supone el uso de LLM para una síntesis completa.