Este artículo estudia el problema conjunto de formación de haz y asignación de recursos para minimizar el retardo promedio en un sistema de multiplexación por división de frecuencia ortogonal (OFDM) con soporte de superficie inteligente reconfigurable (RIS) de enlace descendente. Cada paquete de datos del usuario llega a la estación base (BS) de forma probabilística, y este problema de optimización secuencial es esencialmente un proceso de decisión de Markov (MDP), que se enmarca en el ámbito del aprendizaje por refuerzo. Para gestionar eficazmente el espacio de acción mixto y reducir la dimensionalidad del espacio de estados, se propone un método híbrido de aprendizaje por refuerzo profundo (DRL). Específicamente, se utiliza la optimización de política de proximidad (PPO)-Theta para optimizar el diseño de desplazamiento de fase de RIS, y PPO-N es responsable de las decisiones de asignación de subportadoras. Posteriormente, la formación de haz activa en la BS se deriva de las decisiones de desplazamiento de fase de RIS y asignación de subportadoras optimizadas conjuntamente. Para mitigar aún más el problema de la dimensionalidad asociado con la asignación de subportadoras, se introduce una estrategia multiagente para optimizar de forma más eficiente el índice de asignación de subportadoras. Además, para lograr una asignación de recursos más adaptativa y capturar con precisión la dinámica de la red, integramos en el espacio de estados factores clave estrechamente relacionados con el retardo promedio, como el número de paquetes en espera en el búfer y la llegada actual de paquetes. Además, introducimos un marco de aprendizaje por transferencia para mejorar la eficiencia del entrenamiento y acelerar la convergencia. Los resultados de la simulación muestran que el algoritmo propuesto reduce significativamente el retardo promedio, mejora la eficiencia de la asignación de recursos y logra una robustez y equidad del sistema superiores a las de los métodos de referencia.