MSARL es un marco de aprendizaje por refuerzo multiagente en el que múltiples agentes pequeños colaboran mediante la división del trabajo. Mientras que los sistemas de inferencia integrados con herramientas existentes utilizan un único modelo de gran tamaño que combina la inferencia a largo plazo con la manipulación precisa de herramientas, lo que resulta en una sobrecarga cognitiva y una coordinación inestable, MSARL separa explícitamente la inferencia del uso de herramientas. El agente de inferencia descompone el problema y planifica la invocación de la herramienta, mientras que los agentes de múltiples herramientas se especializan en herramientas externas específicas y se entrenan mediante una combinación de aprendizaje por imitación y aprendizaje por refuerzo con recompensas específicas para cada rol. En la resolución de problemas matemáticos, incluida la ejecución de código, MSARL mejora significativamente la estabilidad de la inferencia y la precisión de la respuesta final en comparación con los modelos de referencia de un solo agente. Además, esta arquitectura se generaliza a diversas tareas que utilizan herramientas, lo que demuestra que la separación de roles cognitivos mediante agentes pequeños es un modelo escalable para el diseño de IA multiagente.