Este artículo se centra en la implementación práctica del Aprendizaje por Refuerzo Profundo (DRL), que se ha convertido en una solución eficaz para satisfacer las crecientes demandas de conectividad, fiabilidad, baja latencia y eficiencia operativa en redes avanzadas. Presentamos un marco de orquestación que integra ETSI MEC y Open RAN para optimizar la adopción fluida de estrategias basadas en DRL en diversas escalas temporales y la gestión del ciclo de vida de los agentes. Identificamos tres retos principales que dificultan las implementaciones prácticas: las solicitudes asíncronas debido al tráfico impredecible o en ráfagas, la adaptabilidad y generalización a topologías heterogéneas y a los requisitos de servicio cambiantes, y la convergencia a largo plazo y las interrupciones del servicio debidas a la exploración en entornos operativos reales. Proponemos tres soluciones: la integración avanzada de series temporales para la gestión del tráfico asíncrono, el diseño de una arquitectura flexible, como DRL multiagente y aprendizaje incremental, para dar soporte a escenarios heterogéneos, y la implementación basada en simulación con aprendizaje por transferencia para reducir el tiempo de convergencia y las interrupciones del servicio. Finalmente, verificamos la viabilidad de la arquitectura MEC-O-RAN en una infraestructura de prueba de toda la ciudad y demostramos la eficacia de la solución propuesta al demostrar los tres desafíos identificados a través de dos casos de uso del mundo real.