HERCULES est un nouvel algorithme et package Python qui regroupe efficacement des ensembles de données complexes de différentes modalités (texte, images et données numériques) grâce à un clustering hiérarchique k-means et fournit des descriptions de clusters sémantiquement riches générées à l'aide d'un modèle de langage étendu (LLM). À partir de points de données, il applique récursivement le clustering k-means pour générer des structures de clusters hiérarchiques. Il prend en charge deux représentations : le mode « direct » (basé sur des intégrations de données originales ou des caractéristiques numériques mises à l'échelle) et le mode « description » (basé sur des intégrations de résumés générés par LLM). Les utilisateurs peuvent fournir un topic_seed pour orienter les résumés générés par LLM vers des sujets spécifiques et analyser les résultats du clustering grâce à des outils de visualisation interactifs.