Trong khi các mô hình tự hồi quy (AR) từ lâu đã thống trị lĩnh vực mô hình ngôn ngữ quy mô lớn, các mô hình ngôn ngữ dựa trên khuếch tán gần đây đã nổi lên như một giải pháp thay thế đầy hứa hẹn. Trong bài báo này, chúng tôi nghiên cứu một cách có hệ thống các mô hình khuếch tán che dấu trong môi trường hạn chế dữ liệu và nhận thấy rằng các mô hình khuếch tán vượt trội hơn đáng kể so với các mô hình tự hồi quy khi tài nguyên tính toán dồi dào nhưng dữ liệu lại khan hiếm. Các mô hình khuếch tán liên tục sử dụng dữ liệu để giảm tổn thất xác thực và đạt được hiệu suất vượt trội trong các tác vụ hạ nguồn. Ưu điểm này có thể được hiểu là sự tăng cường dữ liệu ngầm định, vì khuếch tán che dấu cho phép mô hình tiếp xúc với các thứ tự mã thông báo và tác vụ dự đoán đa dạng, không giống như phân tích nhân tử từ trái sang phải cố định của các mô hình tự hồi quy. Trong bài báo này, chúng tôi đề xuất một quy luật tỷ lệ mới cho các mô hình khuếch tán và đưa ra một biểu thức dạng đóng cho giới hạn tính toán quan trọng mà tại đó các mô hình khuếch tán vượt trội hơn các mô hình tự hồi quy. Những kết quả này cho thấy các mô hình khuếch tán là một giải pháp thay thế hấp dẫn cho mô hình tự hồi quy truyền thống khi tài nguyên tính toán, chứ không phải dữ liệu, là nút thắt cổ chai.