HERCULES es un novedoso algoritmo y paquete de Python que agrupa eficazmente conjuntos de datos complejos de diversas modalidades (texto, imágenes y datos numéricos) mediante la agrupación jerárquica de k-medias y proporciona descripciones de clústeres semánticamente ricas generadas mediante un Modelo de Lenguaje Grande (LLM). A partir de los puntos de datos, aplica recursivamente la agrupación de k-medias para generar estructuras de clústeres jerárquicas. Admite dos representaciones: modo directo (basado en incrustaciones de datos originales o características numéricas escaladas) y modo de descripción (basado en incrustaciones de resúmenes generados por LLM). Los usuarios pueden proporcionar una semilla de tema para dirigir los resúmenes generados por LLM a temas específicos y analizar los resultados de la agrupación mediante una herramienta de visualización interactiva.