Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HiTeC: Học tương phản phân cấp trên siêu đồ thị thuộc tính văn bản với tăng cường nhận thức ngữ nghĩa

Created by
  • Haebom

Tác giả

Mengting Pan, Fan Li, Xiaoyang Wang, Wenjie Zhang, Xuemin Lin

Phác thảo

Bài báo này đề xuất HiTeC, một khuôn khổ mới cho việc học tự giám sát trên siêu đồ thị được quy thuộc văn bản (TAHG). Chúng tôi nêu bật những hạn chế của các phương pháp học tương phản hiện có, vốn không sử dụng hiệu quả thông tin văn bản trong TAHG, bị nhiễu do tăng cường dữ liệu ngẫu nhiên và gặp khó khăn trong việc nắm bắt các phụ thuộc tầm xa. HiTeC bao gồm giai đoạn tiền huấn luyện bộ mã hóa văn bản sử dụng hàm mục tiêu tương phản nhận biết cấu trúc, tiếp theo là giai đoạn thứ hai sử dụng các chiến lược tăng cường nhận biết ngữ nghĩa như tăng cường văn bản được tăng cường bằng dấu nhắc và xóa siêu cạnh nhận biết ngữ nghĩa. Hơn nữa, chúng tôi đề xuất một hàm mất mát tương phản đa thang đo, có thể nắm bắt tốt hơn các phụ thuộc tầm xa thông qua độ tương phản cấp đồ thị con dựa trên phép đi bộ s. Thiết kế hai giai đoạn này tách biệt việc tiền huấn luyện bộ mã hóa văn bản khỏi việc học tương phản siêu đồ thị, do đó cải thiện khả năng mở rộng và duy trì chất lượng biểu diễn. Chúng tôi chứng minh hiệu quả của HiTeC thông qua các thử nghiệm mở rộng.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày HiTeC, một khuôn khổ mới, hiệu quả và có khả năng mở rộng để tự giám sát học tập trên siêu đồ thị có thuộc tính văn bản.
Khắc phục những hạn chế của các phương pháp hiện tại thông qua chiến lược học tập tương phản có nhận thức về cấu trúc và tăng cường nhận thức ngữ nghĩa.
Nắm bắt hiệu quả các mối phụ thuộc tầm xa với các hàm mất mát tương phản đa thang đo.
Khả năng mở rộng được cải thiện bằng cách tách biệt quá trình đào tạo trước bộ mã hóa văn bản và quá trình học tương phản siêu đồ thị thông qua thiết kế hai giai đoạn.
Limitations:
Có khả năng những cải tiến về hiệu suất của HiTeC sẽ chỉ giới hạn ở một số loại TAHG nhất định.
Cần nghiên cứu thêm để tối ưu hóa các thông số của chiến lược tăng cường nhận dạng ngữ nghĩa được đề xuất.
Độ Phức tạp tính toán của các hàm mất mát tương phản đa thang đo có thể cao.
Cần phải xác nhận thêm về khả năng áp dụng và hiệu suất tổng quát trên các tập dữ liệu quy mô lớn trong thế giới thực.
👍