[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MEM1 : Apprendre à associer mémoire et raisonnement pour des agents efficaces à long terme

Created by
  • Haebom

Auteur

Zijian Zhou, Ao Qu, Zhaoxuan Wu, Sunghwan Kim, Alok Prakash, Daniela Rus, Jinhua Zhao, Bryan Kian Hsiang Low, Paul Pu Liang

Contour

Cet article aborde les limites des agents langagiers modernes qui récupèrent des informations externes, s'adaptent aux observations et répondent à des questions interdépendantes dans des interactions à long terme et à plusieurs tours. Les systèmes LLM existants reposent sur une invite contextuelle complète, qui ajoute tous les tours passés, quelle que soit leur pertinence, ce qui entraîne une croissance infinie de la mémoire, une augmentation des coûts de calcul et de faibles performances d'inférence pour les longueurs d'entrée hors de la distribution. En réponse, cet article propose MEM1, un framework d'apprentissage par renforcement de bout en bout capable d'effectuer des tâches à long terme et à plusieurs tours en utilisant une mémoire constante. MEM1 met à jour un état interne partagé compressé qui prend en charge l'intégration et l'inférence de la mémoire à chaque tour, intégrant les nouvelles observations de l'environnement aux mémoires précédentes tout en supprimant stratégiquement les informations non pertinentes ou redondantes. De plus, nous proposons une méthode simple, mais efficace et évolutive pour soutenir l'apprentissage dans des environnements plus réalistes et constructifs en composant des ensembles de données existants en séquences de tâches arbitrairement complexes. Des expériences menées dans trois domaines, dont l'assurance qualité de recherche interne, l'assurance qualité web en domaine ouvert et les achats web multi-sauts, démontrent que MEM1-7B améliore les performances de 3,5 fois par rapport à Qwen2.5-14B-Instruct sur une tâche d'assurance qualité multi-sauts à 16 objectifs, tout en réduisant l'utilisation de la mémoire de 3,7 fois, et se généralise bien au-delà de la période d'apprentissage. Nos résultats démontrent le potentiel de l'intégration mémoire basée sur l'inférence comme alternative évolutive aux solutions existantes pour l'entraînement d'agents interagissant à long terme, optimisant ainsi l'efficacité et les performances.

Takeaways, Limitations_

Takeaways:
Nous présentons la possibilité d'améliorer simultanément l'efficacité et les performances des agents interactifs multi-tours à long terme grâce à l'intégration de la mémoire basée sur l'inférence.
MEM1 résout efficacement le problème de limitation de mémoire du LLM existant et atteint d'excellentes performances même dans des environnements de mémoire limitée.
Nous vérifions la capacité de généralisation de MEM1 à travers des expériences dans divers domaines.
Nous présentons une méthode permettant de construire un environnement multi-tours évolutif à l’aide d’ensembles de données existants.
Limitations:
Manque d'explication détaillée de la stratégie de mise à jour de l'état interne de MEM1 et des critères de suppression des informations.
En raison du biais dans l’évaluation des performances sur des ensembles de données et des tâches spécifiques, des recherches supplémentaires sont nécessaires sur les performances de généralisation dans divers environnements.
Il est nécessaire d’élargir les environnements expérimentaux pour inclure des interactions plus complexes et plus diverses.
Des recherches supplémentaires sont nécessaires pour optimiser les stratégies de gestion de la mémoire.
👍