Bài báo này đề xuất một cơ chế chú ý mới để giải quyết tình trạng mất ổn định về số và suy giảm hiệu suất của sự chú ý softmax thông thường ở độ dài mã thông báo suy luận dài. Chúng tôi phân tích hoạt động softmax thành một phép biến đổi dương phi tuyến tính và các bước chính quy hóa $l_1$, chứng minh rằng chính quy hóa $l_1$ là điều cần thiết để duy trì hiệu suất mô hình. Trong bước đầu tiên, chúng tôi giới thiệu một hàm kích hoạt softplus ổn định về mặt số thay vì một hàm mũ và một hệ số tỷ lệ động dựa trên entropy bất biến, do đó vượt trội hơn sự chú ý softmax thông thường. Trong bước thứ hai, chúng tôi giới thiệu một cơ chế tái trọng số làm sắc nét phân phối sự chú ý, khuếch đại các trọng số quan trọng và giảm các trọng số yếu để tập trung sự chú ý vào các mã thông báo có liên quan một cách hiệu quả hơn. Việc kết hợp hai phương pháp này đảm bảo tính ổn định về số và đạt được kết quả tuyệt vời trên các tác vụ trích xuất ngữ cảnh dài và các điểm chuẩn hạ lưu tiêu chuẩn, đồng thời duy trì tổn thất xác thực gần như không đổi ngay cả ở độ dài đào tạo gấp 16 lần và cải thiện đáng kể hiệu suất ngoại suy độ dài.