Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ToolACE-R: Entrenamiento iterativo basado en modelos y refinamiento adaptativo para el aprendizaje de herramientas

Created by
  • Haebom

Autor

Xingshan Zeng, Weiwen Liu, Xu Huang, Zezhong Wang, Lingzhi Wang, Liangyou Li, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruiming Tang, Qun Liu

Describir

Este artículo analiza el aprendizaje de herramientas, que se ha convertido en un enfoque prometedor para ampliar las capacidades de los modelos de lenguaje a gran escala (LLM). Los enfoques existentes de aprendizaje de herramientas se han centrado principalmente en la síntesis de datos para optimizar los LLM y que estos invoquen herramientas eficazmente, pero han descuidado en gran medida los métodos para aprovechar al máximo el potencial del modelo. Este artículo propone ToolACE-R, un novedoso marco que incorpora tanto el aprendizaje iterativo con reconocimiento de modelos como la mejora adaptativa. ToolACE-R presenta un procedimiento de aprendizaje iterativo con reconocimiento de modelos que ajusta incrementalmente las muestras de entrenamiento en función de la evolución de las capacidades del modelo para maximizar su potencial. Además, incorpora un corpus de entrenamiento con automejora, lo que destaca la capacidad del LLM para optimizar iterativamente la invocación de herramientas sin retroalimentación externa. Asimismo, introducimos un mecanismo de automejora adaptativa para una extensión eficiente del tiempo de prueba, lo que permite al modelo entrenado decidir de forma autónoma cuándo detener el proceso iterativo de automejora. Experimentos exhaustivos con múltiples conjuntos de datos de referencia demuestran que ToolACE-R alcanza un rendimiento competitivo en comparación con los modelos avanzados basados en API. La automejora adaptativa puede optimizar aún más el rendimiento de la invocación de herramientas. Estos resultados destacan la eficacia y la generalización de ToolACE-R y sugieren vías prometedoras para un aprendizaje de herramientas más eficiente y escalable.

Takeaways, Limitations

Takeaways:
Demostramos que el potencial de LLM se puede maximizar a través de un procedimiento de aprendizaje iterativo consciente del modelo que ajusta las muestras de entrenamiento de acuerdo con las capacidades evolutivas del modelo.
Demostramos la eficacia de un corpus de entrenamiento de automejora que optimiza el rendimiento de invocación de herramientas de LLM sin retroalimentación externa.
Proponemos que la extensión del tiempo de prueba se puede realizar eficientemente a través de un mecanismo de automejora adaptativa.
Demostramos experimentalmente que ToolACE-R logra un rendimiento competitivo en comparación con los modelos avanzados basados en API.
Limitations:
Este documento carece de una descripción detallada de los algoritmos específicos y los detalles de implementación de ToolACE-R.
Se necesita más investigación sobre el rendimiento de la generalización en diferentes tipos de herramientas y tareas.
Se necesitan más investigaciones para determinar los parámetros óptimos del mecanismo de automejora adaptativa.
Se requiere la divulgación del código y los datos para garantizar la reproducibilidad de los resultados experimentales.
👍