Este artículo aborda las limitaciones de los agentes de lenguaje modernos que recuperan información externa, se adaptan a las observaciones y responden a preguntas interdependientes en interacciones a largo plazo y de múltiples rondas. Los sistemas LLM existentes se basan en la incitación de contexto completo, que anexa todas las rondas anteriores independientemente de su relevancia, lo que resulta en un crecimiento infinito de la memoria, un mayor costo computacional y un bajo rendimiento de inferencia para longitudes de entrada fuera de la distribución. En respuesta, este artículo propone MEM1, un marco de aprendizaje por refuerzo de extremo a extremo que puede realizar tareas a largo plazo y de múltiples rondas utilizando memoria constante. MEM1 actualiza un estado interno compartido comprimido que admite la integración de memoria e inferencia en cada ronda, integrando nuevas observaciones del entorno con memorias previas a la vez que elimina estratégicamente la información irrelevante o redundante. Además, proponemos un método simple, pero efectivo y escalable para respaldar el aprendizaje en entornos más realistas y constructivos mediante la composición de conjuntos de datos existentes en secuencias de tareas de complejidad arbitraria. Experimentos en tres dominios, incluyendo control de calidad de búsqueda interna, control de calidad web de dominio abierto y compras web multisalto, demuestran que MEM1-7B mejora el rendimiento 3,5 veces en comparación con Qwen2.5-14B-Instruct en una tarea de control de calidad multisalto de 16 objetivos, a la vez que reduce el uso de memoria 3,7 veces y se generaliza considerablemente más allá del período de entrenamiento. Nuestros resultados demuestran el potencial de la integración de memoria basada en inferencia como una alternativa escalable a las soluciones existentes para el entrenamiento de agentes que interactúan a largo plazo, optimizando tanto la eficiencia como el rendimiento.