Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ShizhenGPT: Hacia un LLM multimodal para la medicina tradicional china

Created by
  • Haebom

Autor

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

Describir

Este artículo presenta ShizhenGPT, el primer modelo de lenguaje multimodal a gran escala (LLM) especializado en Medicina Tradicional China (MTC). Para abordar la falta de datos de MTC de alta calidad y la naturaleza multimodal del diagnóstico en MTC, que abarca información sensorial diversa como la visión, la audición, el olfato y el diagnóstico por pulso, lo cual dificulta la aplicación de los LLM existentes a la MTC, construimos un conjunto de datos de MTC a gran escala compuesto por más de 100 GB de datos de texto y más de 200 GB de datos multimodales (incluyendo 1,2 millones de imágenes, 200 horas de audio y señales fisiológicas). Con este conjunto de datos, ShizhenGPT fue preentrenado y entrenado para adquirir un profundo conocimiento de la MTC y capacidades de inferencia multimodal. Los resultados de la evaluación, utilizando datos recientes del Examen Nacional de Calificación de MTC y puntos de referencia visuales para el reconocimiento de fármacos y el diagnóstico visual, demuestran que ShizhenGPT supera a otros LLM de escala similar y es competitivo con los modelos propietarios a gran escala. En particular, entre los modelos multimodales de aprendizaje profundo (LLM) existentes, este es el más avanzado en comprensión visual de la MTC, demostrando capacidades de reconocimiento integradas en diversas modalidades, como el sonido, el pulso, el olfato y la vista, lo que allana el camino para el reconocimiento y diagnóstico multimodal holístico de la MTC. El conjunto de datos, el modelo y el código están disponibles públicamente.

Takeaways, Limitations

Takeaways:
El desarrollo de ShizhenGPT, el primer LLM multimodal especializado en medicina tradicional china, presenta nuevas posibilidades para la investigación y el diagnóstico de la MTC.
La creación de un conjunto de datos de medicina tradicional china a gran escala proporciona una base importante para futuras investigaciones relacionadas con la medicina tradicional china.
Un enfoque holístico de la medicina tradicional china es posible gracias a la capacidad de procesar información modal diversa de manera integrada.
La investigación y el desarrollo continuos son posibles gracias a conjuntos de datos, modelos y códigos abiertos.
Limitations:
Todavía puede haber una brecha de rendimiento en comparación con los modelos exclusivos a gran escala.
Es necesaria una revisión más profunda de la calidad y el equilibrio del conjunto de datos.
Se requiere aplicación y validación en entornos clínicos reales.
Se necesita más investigación sobre el poder explicativo e interpretativo de los procesos de integración de información multimodal.
👍