Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Softplus Attention với việc cân nhắc lại giúp tăng cường ngoại suy độ dài trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Bo Gao, Michael W. Spratling

Phác thảo

Bài báo này đề xuất một cơ chế chú ý mới để giải quyết tình trạng mất ổn định về số và suy giảm hiệu suất của sự chú ý softmax thông thường ở độ dài mã thông báo suy luận dài. Chúng tôi phân tích hoạt động softmax thành một phép biến đổi dương phi tuyến tính và các bước chính quy hóa $l_1$, chứng minh rằng chính quy hóa $l_1$ là điều cần thiết để duy trì hiệu suất mô hình. Trong bước đầu tiên, chúng tôi giới thiệu một hàm kích hoạt softplus ổn định về mặt số thay vì một hàm mũ và một hệ số tỷ lệ động dựa trên entropy bất biến, do đó vượt trội hơn sự chú ý softmax thông thường. Trong bước thứ hai, chúng tôi giới thiệu một cơ chế tái trọng số làm sắc nét phân phối sự chú ý, khuếch đại các trọng số quan trọng và giảm các trọng số yếu để tập trung sự chú ý vào các mã thông báo có liên quan một cách hiệu quả hơn. Việc kết hợp hai phương pháp này đảm bảo tính ổn định về số và đạt được kết quả tuyệt vời trên các tác vụ trích xuất ngữ cảnh dài và các điểm chuẩn hạ lưu tiêu chuẩn, đồng thời duy trì tổn thất xác thực gần như không đổi ngay cả ở độ dài đào tạo gấp 16 lần và cải thiện đáng kể hiệu suất ngoại suy độ dài.

Takeaways, Limitations

Takeaways:
Một giải pháp hiệu quả cho tình trạng bất ổn về số và hiệu suất kém trong quá trình xử lý ngữ cảnh dài của sự chú ý softmax được trình bày.
Cải thiện hiệu suất cơ chế chú ý thông qua hàm kích hoạt soft-plus, hệ số tỷ lệ động và cơ chế điều chỉnh lại trọng số.
ĐạT hiệu suất tuyệt vời trong các tác vụ trích xuất ngữ cảnh dài và chuẩn mực hạ lưu.
Duy trì hiệu suất ổn định ngay cả trong bối cảnh dài hơn thời gian học 16 lần.
Limitations:
Có thể còn thiếu sót trong việc phân tích độ phức tạp tính toán của phương pháp đề xuất.
Có thể cần có thêm kết quả thử nghiệm trên nhiều loại tập dữ liệu ngữ cảnh dài khác nhau.
Có thể cần nghiên cứu thêm để xác định hiệu suất tổng quát của phương pháp được đề xuất.
👍