Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HERCULES: Phân cụm đệ quy dựa trên nhúng phân cấp sử dụng LLM để tóm tắt hiệu quả

Created by
  • Haebom

Tác giả

Gabor Petnehazi, Bernadett Aradi

Phác thảo

HERCULES là một thuật toán và gói Python mới, có khả năng nhóm hiệu quả các tập dữ liệu phức tạp thuộc nhiều dạng thức khác nhau (văn bản, hình ảnh và dữ liệu số) thông qua phân cụm k-means phân cấp và cung cấp các mô tả cụm giàu ngữ nghĩa được tạo bằng Mô hình Ngôn ngữ Lớn (LLM). Bắt đầu từ các điểm dữ liệu, thuật toán này áp dụng phân cụm k-means đệ quy để tạo ra các cấu trúc cụm phân cấp. HERCULES hỗ trợ hai biểu diễn: chế độ 'trực tiếp' (dựa trên nhúng dữ liệu gốc hoặc các đặc điểm số được chia tỷ lệ) và chế độ 'mô tả' (dựa trên nhúng tóm tắt do LLM tạo ra). Người dùng có thể cung cấp topic_seed để hướng các tóm tắt do LLM tạo ra đến các chủ đề cụ thể và phân tích kết quả phân cụm thông qua các công cụ trực quan hóa tương tác.

Takeaways, Limitations

Takeaways:
Cung cấp khả năng phân cụm theo thứ bậc hiệu quả cho dữ liệu của nhiều phương thức khác nhau.
Tận dụng LLM để cải thiện sự hiểu biết ngữ nghĩa của các cụm
Kiểm soát kết quả phân cụm thông qua topic_seed
Cung cấp các công cụ trực quan tương tác để dễ dàng phân tích và hiểu
Trình bày khả năng trích xuất kiến ​​thức phân cấp từ các tập dữ liệu phức tạp.
Limitations:
Mỗi phương thức chỉ có thể được xử lý một lần (nhiều phương thức không thể được xử lý cùng lúc)
Sự phụ thuộc vào hiệu suất LLM (nếu hiệu suất LLM giảm, độ chính xác và khả năng diễn giải kết quả có thể giảm)
Hiệu quả của topic_seed có thể phụ thuộc vào trình độ chuyên môn của người dùng.
Cần nghiên cứu thêm để xác định các thông số tối ưu cho phân cụm theo thứ bậc.
👍