Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HoPE: Mã hóa vị trí quay Hyperbolic cho mô hình phụ thuộc tầm xa ổn định trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Thường Đại, Hồng Vũ Sơn, Minh Dương Tống, Địch Lương

Phác thảo

Bài báo này giới thiệu về Mã hóa Vị trí Quay Hyperbolic (HoPE), một phương pháp được đề xuất nhằm giải quyết những hạn chế của các cơ chế mã hóa vị trí được sử dụng để mô hình hóa cấu trúc tuần tự và các phụ thuộc tầm xa trong các mô hình Transformer. Các phương pháp mã hóa vị trí tuyệt đối hiện có gặp khó khăn trong việc ngoại suy sang các chuỗi dài do các biểu diễn vị trí cố định của chúng. Các phương pháp tương đối, chẳng hạn như Alibi, cho thấy hiệu suất kém trong các bối cảnh rất dài. Mã hóa Vị trí Quay (RoPE) được sử dụng rộng rãi gặp khó khăn trong việc mô hình hóa các phụ thuộc tầm xa một cách đáng tin cậy do các mẫu chú ý dao động của nó. HoPE, lấy cảm hứng từ phép biến đổi Lorenz trong hình học hyperbolic, giải quyết những vấn đề này bằng cách áp dụng phép quay Lorenz vào các biểu diễn token sử dụng các hàm hyperbolic. Phân tích lý thuyết chứng minh rằng RoPE là một trường hợp đặc biệt của một công thức tổng quát của HoPE, về cơ bản giải quyết vấn đề dao động của RoPE bằng cách áp dụng sự giảm đơn điệu của trọng số chú ý khi khoảng cách giữa các token tăng lên. Các kết quả thử nghiệm mở rộng, bao gồm đánh giá độ phức tạp trên một số điểm chuẩn chuỗi mở rộng, chứng minh rằng HoPE luôn vượt trội hơn các phương pháp mã hóa vị trí hiện có. Những kết quả này làm nổi bật khả năng nâng cao của HoPE trong việc biểu diễn và khái quát hóa các mối phụ thuộc tầm xa. Dữ liệu và mã sẽ được công khai.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một kỹ thuật mã hóa vị trí mới, HoPE, khắc phục được những hạn chế của các phương pháp mã hóa vị trí hiện có (RoPE, Alibi, v.v.).
Mô hình hóa sự phụ thuộc tầm xa đáng tin cậy ngay cả trong chuỗi dài
Giải quyết các vấn đề rung động của RoPE và cải thiện hiệu suất
Trình bày cơ sở lý thuyết dựa trên hình học hypebolic
Đã Chứng minh hiệu suất vượt trội so với các phương pháp hiện có trong nhiều tiêu chuẩn khác nhau
Limitations:
Thông tin được công bố cho đến nay vẫn chưa đủ để cung cấp thông tin chi tiết về việc triển khai và ứng dụng thực tế.
Cần nghiên cứu thêm để xác định khả năng khái quát hóa cho các loại dữ liệu trình tự hoặc nhiệm vụ khác.
Cần đánh giá hiệu suất bổ sung cho các chuỗi cực dài.
Cần phân tích chi phí tính toán và sử dụng bộ nhớ
👍