Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CoT-Self-Instruct: Creación de indicaciones sintéticas de alta calidad para tareas de razonamiento y no razonamiento

Created by
  • Haebom

Autor

Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, Sainbayar Sukhbaatar, Jason Weston, Jing Xu

Describir

Este artículo propone CoT-Self-Instruct, un método de generación de datos sintéticos de alta calidad para modelos de lenguaje a gran escala (LLM). A partir de una tarea inicial, CoT-Self-Instruct primero infiere y planifica el LLM mediante Cadena de Pensamiento (CoT) y, a continuación, genera nuevos datos sintéticos de calidad y complejidad similares. A continuación, se realiza un filtrado que selecciona datos de alta calidad mediante métricas de evaluación automáticas, y los datos seleccionados se utilizan para el entrenamiento del LLM. Los resultados experimentales muestran que CoT-Self-Instruct supera a los conjuntos de datos de entrenamiento existentes (s1k, OpenMathReasoning) en tareas de razonamiento verificables (MATH500, AMC23, AIME24, GPQA-Diamond), así como a los datos generados por humanos y a los datos de entrenamiento de autoinstrucción estándar en tareas de seguimiento de instrucciones no verificables (AlpacaEval 2.0, Arena-Hard).

Takeaways, Limitations

Takeaways:
CoT-Self-Instruct puede contribuir a mejorar el rendimiento de LLM al generar datos sintéticos con mayor calidad que los conjuntos de datos existentes.
Muestra un rendimiento excelente tanto en tareas de inferencia verificable como de seguimiento de instrucciones no verificables.
Presentamos un método para seleccionar eficientemente datos de alta calidad utilizando métricas de evaluación automatizadas.
Limitations:
Se necesita una mayor validación del rendimiento de generalización y la confiabilidad de la métrica de evaluación automática propuesta.
Falta análisis del sesgo y la seguridad de los datos sintéticos generados.
Dado que el desempeño se evaluó solo para un tipo específico de tarea, es necesario examinar el desempeño de generalización a otros tipos de tareas.
👍