Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HoneyBee: Un marco modular escalable para la creación de conjuntos de datos oncológicos multimodales con modelos de integración fundamentales

Created by
  • Haebom

Autor

Aakash Tripathi, Asim Waqas, Matthew B. Schabath, Yasin Yilmaz, Ghulam Rasool

Describir

HONeYBEE es un marco de integración de datos biomédicos multimodales de código abierto para aplicaciones oncológicas. Procesa datos clínicos estructurados y no estructurados, imágenes de portaobjetos completos, exploraciones radiológicas y perfiles moleculares, generando incrustaciones integradas a nivel de paciente mediante modelos base específicos de dominio y estrategias de fusión. Estas incrustaciones permiten la predicción de supervivencia, la clasificación del tipo de cáncer, la recuperación de similitudes entre pacientes y la agrupación de cohortes. Al evaluarse en más de 11 400 pacientes de 33 tipos de cáncer del TCGA, las incrustaciones clínicas demostraron el rendimiento unimodal más sólido, con una precisión de clasificación del 98,5 % y una precisión del 96,4 % @10 en la recuperación de pacientes. También alcanzó el mayor índice de concordancia en la predicción de supervivencia en la mayoría de los tipos de cáncer. La fusión multimodal ofrece beneficios complementarios para cánceres específicos, mejorando la predicción de supervivencia general más allá de lo que las características clínicas por sí solas pueden lograr. Las evaluaciones comparativas de cuatro modelos de lenguaje a gran escala muestran que los modelos de propósito general como Qwen3 mejoran el rendimiento del ajuste fino de tareas específicas en datos heterogéneos, como informes de patología, pero superan a los modelos médicos especializados en la representación de textos clínicos.

Takeaways, Limitations

Takeaways: Presentamos un marco eficaz para integrar diversas modalidades de datos médicos con el fin de mejorar la investigación oncológica y el rendimiento predictivo. En concreto, demostramos el rendimiento superior de las integraciones basadas en datos clínicos. Demostramos el potencial para mejorar la predicción de supervivencia mediante la fusión multimodal. También validamos el rendimiento de un LLM de propósito general para el procesamiento de datos médicos.
Limitations: Dependencia del conjunto de datos TCGA. Es necesario verificar su generalización a otros conjuntos de datos. La eficacia de la fusión multimodal para ciertos tipos de cáncer podría ser limitada. Se requiere más investigación para determinar la interpretabilidad y la capacidad explicativa del modelo.
👍