Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MSARL: Desacoplamiento del razonamiento y el uso de herramientas con aprendizaje de refuerzo de múltiples agentes pequeños

Created by
  • Haebom

Autor

Dayu Wang, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li

Describir

MSARL es un marco de aprendizaje por refuerzo multiagente en el que múltiples agentes pequeños colaboran mediante la división del trabajo. Mientras que los sistemas de inferencia integrados con herramientas existentes utilizan un único modelo de gran tamaño que combina la inferencia a largo plazo con la manipulación precisa de herramientas, lo que resulta en una sobrecarga cognitiva y una coordinación inestable, MSARL separa explícitamente la inferencia del uso de herramientas. El agente de inferencia descompone el problema y planifica la invocación de la herramienta, mientras que los agentes de múltiples herramientas se especializan en herramientas externas específicas y se entrenan mediante una combinación de aprendizaje por imitación y aprendizaje por refuerzo con recompensas específicas para cada rol. En la resolución de problemas matemáticos, incluida la ejecución de código, MSARL mejora significativamente la estabilidad de la inferencia y la precisión de la respuesta final en comparación con los modelos de referencia de un solo agente. Además, esta arquitectura se generaliza a diversas tareas que utilizan herramientas, lo que demuestra que la separación de roles cognitivos mediante agentes pequeños es un modelo escalable para el diseño de IA multiagente.

Takeaways, Limitations

Takeaways:
Demostramos que un sistema multiagente basado en agentes pequeños puede reducir la interferencia de la carga cognitiva y mejorar la estabilidad y precisión de la inferencia.
Un diseño que separa claramente el razonamiento del uso de herramientas sugiere una arquitectura escalable que puede generalizarse a una variedad de tareas de uso de herramientas.
Los métodos de entrenamiento que combinan el aprendizaje por imitación y el aprendizaje por refuerzo permiten un aprendizaje eficiente de los agentes de herramientas.
Limitations:
Actualmente, la atención se centra en la resolución de problemas matemáticos y la ejecución de código, y se necesita más investigación sobre la generalización a otros tipos de tareas.
Tal vez se necesiten más investigaciones sobre mecanismos eficientes de cooperación y coordinación entre múltiples agentes pequeños.
Se requiere una mayor validación de la escalabilidad y la estabilidad para su aplicación a problemas complejos del mundo real.
👍