Este artículo presenta ShizhenGPT, el primer modelo de lenguaje multimodal a gran escala (LLM) especializado en Medicina Tradicional China (MTC). Para abordar la falta de datos de MTC de alta calidad y la naturaleza multimodal del diagnóstico en MTC, que abarca información sensorial diversa como la visión, la audición, el olfato y el diagnóstico por pulso, lo cual dificulta la aplicación de los LLM existentes a la MTC, construimos un conjunto de datos de MTC a gran escala compuesto por más de 100 GB de datos de texto y más de 200 GB de datos multimodales (incluyendo 1,2 millones de imágenes, 200 horas de audio y señales fisiológicas). Con este conjunto de datos, ShizhenGPT fue preentrenado y entrenado para adquirir un profundo conocimiento de la MTC y capacidades de inferencia multimodal. Los resultados de la evaluación, utilizando datos recientes del Examen Nacional de Calificación de MTC y puntos de referencia visuales para el reconocimiento de fármacos y el diagnóstico visual, demuestran que ShizhenGPT supera a otros LLM de escala similar y es competitivo con los modelos propietarios a gran escala. En particular, entre los modelos multimodales de aprendizaje profundo (LLM) existentes, este es el más avanzado en comprensión visual de la MTC, demostrando capacidades de reconocimiento integradas en diversas modalidades, como el sonido, el pulso, el olfato y la vista, lo que allana el camino para el reconocimiento y diagnóstico multimodal holístico de la MTC. El conjunto de datos, el modelo y el código están disponibles públicamente.