HERCULES là một thuật toán và gói Python mới, có khả năng nhóm hiệu quả các tập dữ liệu phức tạp thuộc nhiều dạng thức khác nhau (văn bản, hình ảnh và dữ liệu số) thông qua phân cụm k-means phân cấp và cung cấp các mô tả cụm giàu ngữ nghĩa được tạo bằng Mô hình Ngôn ngữ Lớn (LLM). Bắt đầu từ các điểm dữ liệu, thuật toán này áp dụng phân cụm k-means đệ quy để tạo ra các cấu trúc cụm phân cấp. HERCULES hỗ trợ hai biểu diễn: chế độ 'trực tiếp' (dựa trên nhúng dữ liệu gốc hoặc các đặc điểm số được chia tỷ lệ) và chế độ 'mô tả' (dựa trên nhúng tóm tắt do LLM tạo ra). Người dùng có thể cung cấp topic_seed để hướng các tóm tắt do LLM tạo ra đến các chủ đề cụ thể và phân tích kết quả phân cụm thông qua các công cụ trực quan hóa tương tác.