Cet article aborde les limites des agents langagiers modernes qui récupèrent des informations externes, s'adaptent aux observations et répondent à des questions interdépendantes dans des interactions à long terme et à plusieurs tours. Les systèmes LLM existants reposent sur une invite contextuelle complète, qui ajoute tous les tours passés, quelle que soit leur pertinence, ce qui entraîne une croissance infinie de la mémoire, une augmentation des coûts de calcul et de faibles performances d'inférence pour les longueurs d'entrée hors de la distribution. En réponse, cet article propose MEM1, un framework d'apprentissage par renforcement de bout en bout capable d'effectuer des tâches à long terme et à plusieurs tours en utilisant une mémoire constante. MEM1 met à jour un état interne partagé compressé qui prend en charge l'intégration et l'inférence de la mémoire à chaque tour, intégrant les nouvelles observations de l'environnement aux mémoires précédentes tout en supprimant stratégiquement les informations non pertinentes ou redondantes. De plus, nous proposons une méthode simple, mais efficace et évolutive pour soutenir l'apprentissage dans des environnements plus réalistes et constructifs en composant des ensembles de données existants en séquences de tâches arbitrairement complexes. Des expériences menées dans trois domaines, dont l'assurance qualité de recherche interne, l'assurance qualité web en domaine ouvert et les achats web multi-sauts, démontrent que MEM1-7B améliore les performances de 3,5 fois par rapport à Qwen2.5-14B-Instruct sur une tâche d'assurance qualité multi-sauts à 16 objectifs, tout en réduisant l'utilisation de la mémoire de 3,7 fois, et se généralise bien au-delà de la période d'apprentissage. Nos résultats démontrent le potentiel de l'intégration mémoire basée sur l'inférence comme alternative évolutive aux solutions existantes pour l'entraînement d'agents interagissant à long terme, optimisant ainsi l'efficacité et les performances.