Bài báo này đề cập đến xu hướng của các mạng nơ-ron sâu (DNN) hiện đại trong việc tạo ra mật độ phổ thực nghiệm (ESD) đuôi nặng (HT) trong các trọng số lớp. Mặc dù các nghiên cứu trước đây đã chỉ ra rằng hiện tượng HT có tương quan với khả năng khái quát hóa tốt trong các mạng nơ-ron nhân tạo quy mô lớn, nhưng vẫn còn thiếu một lời giải thích lý thuyết cho sự xuất hiện của nó. Cụ thể, việc hiểu các điều kiện kích hoạt hiện tượng này có thể giúp làm sáng tỏ sự tương tác giữa khái quát hóa và mật độ phổ trọng số. Nghiên cứu này nhằm mục đích lấp đầy khoảng trống này bằng cách trình bày một bối cảnh đơn giản và phong phú để mô hình hóa sự xuất hiện của HT ESD. Cụ thể, chúng tôi trình bày một bối cảnh dựa trên lý thuyết "tạo ra" đuôi nặng trong ESD trong các mạng nơ-ron nhân tạo hai lớp và cung cấp một phân tích có hệ thống về sự xuất hiện của HT ESD mà không có bất kỳ nhiễu gradient nào. Đây là nghiên cứu đầu tiên phân tích các bối cảnh không nhiễu và kết hợp tốc độ học (lớn) phụ thuộc vào bộ tối ưu hóa (GD/Adam) vào việc phân tích HT ESD. Kết quả của chúng tôi làm nổi bật vai trò của tốc độ học trong giai đoạn đầu huấn luyện cho các dạng Bulk+Spike và HT của ESD, điều này có thể thúc đẩy khả năng khái quát hóa trong các mạng nơ-ron nhân tạo hai lớp. Những quan sát này, mặc dù được thiết lập đơn giản hơn nhiều, nhưng lại cung cấp cái nhìn sâu sắc về hành vi của mạng nơ-ron nhân tạo quy mô lớn.