Bài báo này nghiên cứu vấn đề định hình chùm tia và phân bổ tài nguyên chung để giảm thiểu độ trễ trung bình trong hệ thống ghép kênh phân chia tần số trực giao (OFDM) được hỗ trợ bởi bề mặt thông minh có thể cấu hình lại đường xuống (RIS). Mỗi gói dữ liệu của người dùng đến trạm gốc (BS) theo xác suất, và bài toán tối ưu hóa tuần tự này về cơ bản là một quy trình quyết định Markov (MDP), nằm trong phạm vi của học tăng cường. Để xử lý hiệu quả không gian hành động hỗn hợp và giảm chiều không gian trạng thái, một phương pháp học tăng cường sâu (DRL) lai được đề xuất. Cụ thể, tối ưu hóa chính sách lân cận (PPO)-Theta được sử dụng để tối ưu hóa thiết kế dịch pha RIS, và PPO-N chịu trách nhiệm cho các quyết định phân bổ sóng mang con. Sau đó, định hình chùm tia chủ động tại BS được suy ra từ các quyết định dịch pha RIS và phân bổ sóng mang con được tối ưu hóa chung. Để giảm bớt hơn nữa lời nguyền về chiều liên quan đến phân bổ sóng mang con, một chiến lược đa tác nhân được giới thiệu để tối ưu hóa chỉ số phân bổ sóng mang con hiệu quả hơn. Ngoài ra, để đạt được sự phân bổ tài nguyên thích ứng hơn và nắm bắt chính xác động lực mạng, chúng tôi tích hợp các yếu tố chính liên quan chặt chẽ đến độ trễ trung bình, chẳng hạn như số lượng gói tin đang chờ trong bộ đệm và thời điểm gói tin đến hiện tại, vào không gian trạng thái. Ngoài ra, chúng tôi giới thiệu một khuôn khổ học chuyển giao để cải thiện hiệu quả huấn luyện và tăng tốc độ hội tụ. Kết quả mô phỏng cho thấy thuật toán đề xuất giảm đáng kể độ trễ trung bình, cải thiện hiệu quả phân bổ tài nguyên và đạt được độ mạnh mẽ và công bằng của hệ thống vượt trội so với các phương pháp cơ sở.