Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
TL-Training: Un marco basado en tareas y características para entrenar grandes modelos de lenguaje en el uso de herramientas
Created by
Haebom
Autor
Junjie Ye, Yilong Wu, Sixian Li, Yuming Yang, Zhiheng Xi, Tao Gui, Qi Zhang, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan, Zhengyin Du
Describir
Este artículo aborda la mejora del rendimiento de los modelos de lenguaje a gran escala (LLM) que utilizan herramientas para interactuar con sus entornos. Los enfoques existentes de ajuste fino del aprendizaje supervisado (SFT) se basan en grandes conjuntos de datos y presentan la limitación de pasar por alto las características de las tareas. Para abordar esto, los investigadores analizaron tres LLM existentes y descubrieron que los datos de entrenamiento interfieren con el comportamiento de uso de las herramientas, la importancia de los tokens se distribuye de forma desigual y los errores de invocación de herramientas se concentran en categorías específicas. Con base en estos hallazgos, los investigadores proponen TL-Training, un marco basado en características específicas de cada tarea. TL-Training mitiga los efectos de los datos de entrenamiento subóptimos, ajusta dinámicamente el peso de los tokens para priorizar los tokens importantes en los SFT y optimiza un mecanismo de recompensa mejorado, adaptado a las categorías de error, mediante la optimización proximal de políticas. El entrenamiento de CodeLLaMA-2-7B y su evaluación en cuatro conjuntos de pruebas de código abierto demuestran que, incluso con un conjunto de datos de entrenamiento limitado (1217 tokens), TL-Training logra un rendimiento en el uso de las herramientas comparable o superior al de los LLM de código abierto y cerrado. Además, proporciona un paradigma escalable y eficiente para el entrenamiento en el uso de herramientas en LLM, mejorando la robustez en entornos ruidosos y el rendimiento general de las tareas. El código y los datos están disponibles en https://github.com/Junjie-Ye/TL-Training .
Presentamos un marco de entrenamiento eficiente (TL-Training) que logra un excelente rendimiento en el uso de herramientas incluso con datos de entrenamiento limitados.
◦
Robustez mejorada en entornos ruidosos y rendimiento general mejorado de las tareas.
◦
Presentamos un paradigma escalable y eficiente para el entrenamiento en el uso de herramientas en LLM.
◦
Analizar el método SFT existente Limitations y sugerir medidas de mejora.
•
Limitations:
◦
El rendimiento de TL-Training puede estar limitado a LLM y conjuntos de datos específicos.
◦
Es necesaria la verificación del rendimiento de generalización para varias herramientas y tipos de tareas.
◦
Se necesitan estudios experimentales y comparativos más amplios para verificar el rendimiento y la versatilidad de la generalización.
◦
El pequeño tamaño de los datos de entrenamiento utilizados requiere más investigación sobre la generalización en escenarios de aplicaciones a gran escala del mundo real.