Bài báo này nghiên cứu hành vi xấp xỉ và hội tụ của các bộ biến đổi một lớp để dự đoán mã thông báo tiếp theo trong cả môi trường không nhiễu và có nhiễu. Các kết quả lý thuyết trước đây tập trung vào việc hiểu hành vi suy luận trong các tình huống mà bước gradient đầu tiên hoặc số lượng mẫu là vô hạn. Hơn nữa, tốc độ hội tụ và khả năng khái quát hóa của chúng vẫn chưa được biết. Nghiên cứu này giải quyết khoảng trống này bằng cách chứng minh sự tồn tại của một lớp các bộ biến đổi một lớp có thể chứng minh được là tối ưu Bayes bằng cách sử dụng sự chú ý tuyến tính và ReLU. Khi được đào tạo bằng cách sử dụng gradient descent, nghiên cứu này chứng minh thông qua phân tích mẫu hữu hạn rằng tổn thất dự kiến của các bộ biến đổi này hội tụ tuyến tính đến rủi ro Bayesian. Hơn nữa, chúng tôi chứng minh rằng các mô hình được đào tạo có khả năng khái quát hóa tốt đối với các mẫu chưa thấy và thể hiện các hành vi học tập được quan sát theo kinh nghiệm trong các nghiên cứu trước đây. Những phát hiện lý thuyết này được hỗ trợ bởi xác thực thực nghiệm rộng rãi.