Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CARFT: Impulso del razonamiento LLM mediante aprendizaje contrastivo con ajuste fino reforzado basado en cadena de pensamiento anotada

Created by
  • Haebom

Autor

Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu y Yulun Zhang

Describir

En este artículo, proponemos el aprendizaje contrastivo con ajuste fino reforzado basado en CoT anotado (\TheName{}), un novedoso método de ajuste fino basado en aprendizaje de refuerzo para mejorar la capacidad de inferencia de los modelos de lenguaje a gran escala (LLM). Para abordar los problemas de muestreo inestable de la trayectoria de inferencia y la omisión de los CoT anotados en los métodos existentes basados ​​en RL, así como el énfasis excesivo en los CoT en los enfoques SFT existentes, aprendemos representaciones para cada CoT y diseñamos nuevas señales contrastivas para guiar el proceso de ajuste fino. \TheName{} utiliza completamente los CoT anotados a la vez que incorpora señales de aprendizaje no supervisado para estabilizar el proceso de ajuste fino. Los resultados experimentales utilizando tres métodos de referencia, dos modelos base y dos conjuntos de datos demuestran ventajas significativas de \TheName{} en términos de robustez, rendimiento (hasta un 10,15 % de mejora) y eficiencia (hasta un 30,62 % de mejora).

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método efectivo para mejorar el rendimiento de inferencia de LLM.
Solución de los problemas de inestabilidad y colapso del modelo de los métodos existentes basados ​​en RL, que son Limitations.
Utilice eficazmente el CoT anotado para mejorar el rendimiento y aumentar la eficiencia.
Implementar un proceso de ajuste fino estable y eficiente a través del aprendizaje contrastivo.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Se necesitan más experimentos en diferentes LLM y conjuntos de datos.
Existe la posibilidad de que la mejora del rendimiento de \TheName{} esté limitada a conjuntos de datos o modelos específicos.
Posible aumento del coste computacional debido a la complejidad del algoritmo.
👍