Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HoPE: Mã hóa vị trí quay Hyperbolic cho mô hình phụ thuộc tầm xa ổn định trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Thường Đại, Hồng Vũ Sơn, Minh Dương Tống, Địch Lương

Phác thảo

Bài báo này đề xuất Mã hóa Vị trí Quay Hyperbolic (HoPE), một phương pháp mã hóa vị trí mới lấy cảm hứng từ phép biến đổi Lorenz của hình học hyperbolic, nhằm giải quyết những hạn chế của các cơ chế mã hóa vị trí được sử dụng để mô hình hóa cấu trúc chuỗi và các phụ thuộc tầm xa trong các mô hình Transformer. Trong khi Mã hóa Vị trí Quay (RoPE) thông thường cản trở việc mô hình hóa các phụ thuộc tầm xa do các mẫu chú ý dao động, HoPE khắc phục vấn đề này bằng cách áp dụng phép quay Lorenz vào các biểu diễn token sử dụng các hàm hyperbolic. Phân tích lý thuyết chứng minh rằng RoPE là một trường hợp đặc biệt của một công thức tổng quát của HoPE, và HoPE về cơ bản giải quyết vấn đề của RoPE bằng cách thực thi sự giảm đơn điệu trong trọng số chú ý khi khoảng cách giữa các token tăng lên. Kết quả thực nghiệm sử dụng nhiều chuẩn mực trình tự mở rộng khác nhau chứng minh rằng HoPE vượt trội hơn các phương pháp mã hóa vị trí hiện có.

Takeaways, Limitations

Takeaways:
Một phương pháp mã hóa vị trí mới, HoPE, được đề xuất để giải quyết vấn đề mẫu chú ý dao động của Limitations của RoPE.
Tổng quát hóa RoPE dựa trên cơ sở lý thuyết của hình học hypebolic
Cải thiện hiệu suất trong việc mô hình hóa các mối phụ thuộc tầm xa và cải thiện hiệu suất ngoại suy cho các chuỗi dài.
Đã Chứng minh hiệu suất vượt trội so với các phương pháp hiện có trong nhiều tiêu chuẩn khác nhau
Limitations:
Cần nghiên cứu thêm để xác định liệu hiệu quả của phương pháp đề xuất có thể được khái quát hóa cho tất cả các loại dữ liệu trình tự và mô hình Transformer hay không.
Chi tiết về kết quả thử nghiệm và mã vẫn chưa được công bố (sẽ được công bố sau)
👍