Bài báo này đề xuất Dynamic Mask Attention (DMA), một cơ chế chú ý thưa thớt mặt nạ động có thể học được, để giải quyết vấn đề phức tạp bậc hai của các cơ chế tự chú ý tiêu chuẩn, vốn đặt ra một hạn chế do nhu cầu ngày càng tăng đối với mô hình văn bản dài. DMA tận dụng sự thưa thớt nhận biết nội dung và nhận biết vị trí để giảm độ phức tạp tính toán đồng thời giảm thiểu mất mát thông tin. Mặt nạ thưa thớt nhận biết nội dung được tạo động từ các biểu diễn giá trị để tập trung vào thông tin quan trọng, trong khi sự chú ý thưa thớt nhận biết vị trí bỏ qua các vùng tính toán không cần thiết. Kết quả thực nghiệm chứng minh rằng DMA vượt trội hơn các cơ chế chú ý khác nhau (sự chú ý nhiều đầu, sự chú ý cửa sổ trượt, sự chú ý tiềm ẩn nhiều đầu và sự chú ý thưa thớt thông thường) về mặt độ phức tạp trong bối cảnh Luật tỷ lệ Chinchilla và thể hiện hiệu suất và hiệu quả vượt trội trong các tác vụ nhớ lại liên kết nhiều truy vấn. Đáng chú ý, trong đánh giá mô hình 1,7 tỷ tham số, DMA vượt trội hơn sự chú ý nhiều đầu trên cả các điểm chuẩn tiêu chuẩn và tác vụ tìm kim trong đống cỏ khô.