[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MEM1: Aprendiendo a sinergizar la memoria y el razonamiento para agentes eficientes de largo horizonte

Created by
  • Haebom

Autor

Zijian Zhou, Ao Qu, Zhaoxuan Wu, Sunghwan Kim, Alok Prakash, Daniela Rus, Jinhua Zhao, Bryan Kian Hsiang Low, Paul Pu Liang

Describir

Este artículo aborda las limitaciones de los agentes de lenguaje modernos que recuperan información externa, se adaptan a las observaciones y responden a preguntas interdependientes en interacciones a largo plazo y de múltiples rondas. Los sistemas LLM existentes se basan en la incitación de contexto completo, que anexa todas las rondas anteriores independientemente de su relevancia, lo que resulta en un crecimiento infinito de la memoria, un mayor costo computacional y un bajo rendimiento de inferencia para longitudes de entrada fuera de la distribución. En respuesta, este artículo propone MEM1, un marco de aprendizaje por refuerzo de extremo a extremo que puede realizar tareas a largo plazo y de múltiples rondas utilizando memoria constante. MEM1 actualiza un estado interno compartido comprimido que admite la integración de memoria e inferencia en cada ronda, integrando nuevas observaciones del entorno con memorias previas a la vez que elimina estratégicamente la información irrelevante o redundante. Además, proponemos un método simple, pero efectivo y escalable para respaldar el aprendizaje en entornos más realistas y constructivos mediante la composición de conjuntos de datos existentes en secuencias de tareas de complejidad arbitraria. Experimentos en tres dominios, incluyendo control de calidad de búsqueda interna, control de calidad web de dominio abierto y compras web multisalto, demuestran que MEM1-7B mejora el rendimiento 3,5 veces en comparación con Qwen2.5-14B-Instruct en una tarea de control de calidad multisalto de 16 objetivos, a la vez que reduce el uso de memoria 3,7 veces y se generaliza considerablemente más allá del período de entrenamiento. Nuestros resultados demuestran el potencial de la integración de memoria basada en inferencia como una alternativa escalable a las soluciones existentes para el entrenamiento de agentes que interactúan a largo plazo, optimizando tanto la eficiencia como el rendimiento.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de mejorar simultáneamente la eficiencia y el rendimiento de agentes interactivos multiturno de largo plazo a través de la integración de memoria basada en inferencia.
MEM1 resuelve eficazmente el problema de limitación de memoria de los LLM existentes y logra un rendimiento excelente incluso en entornos de memoria limitada.
Verificamos la capacidad de generalización de MEM1 a través de experimentos en varios dominios.
Presentamos un método para construir un entorno multi-turno escalable utilizando conjuntos de datos existentes.
Limitations:
Falta de una explicación detallada de la estrategia de actualización del estado interno de MEM1 y de los criterios de eliminación de información.
Debido al sesgo en la evaluación del desempeño en conjuntos de datos y tareas específicos, se necesita más investigación sobre el desempeño de generalización en diversos entornos.
Es necesario ampliar los entornos experimentales para incluir interacciones más complejas y diversas.
Se necesita más investigación para optimizar las estrategias de gestión de la memoria.
👍