Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Oro de baja confianza: refinamiento de muestras de baja confianza para un ajuste eficiente de las instrucciones

Created by
  • Haebom

Autor

Hongyi Cai, Jie Li, Mohammad Mahdinur Rahman, Wenzhen Dong

Describir

Este artículo propone Low-Confidence Gold (LCG), un novedoso marco de filtrado para mejorar la eficiencia del ajuste fino de directivas en modelos lingüísticos a gran escala. LCG identifica pares de directivas valiosos mediante agrupamiento basado en centroides y selección basada en la confianza. El aprendizaje semisupervisado con clasificadores ligeros genera subconjuntos de alta calidad, preservando la diversidad de los datos. Los resultados experimentales muestran que un modelo ajustado con 6000 muestras filtradas por LCG supera a los métodos existentes, mostrando mejoras significativas de rendimiento en MT-bench y mejoras consistentes en el rendimiento en métricas de evaluación integrales. La eficacia de este marco para mejorar la eficiencia, manteniendo el rendimiento del modelo, sugiere una dirección prometedora para el ajuste fino eficiente de directivas.

Takeaways, Limitations

Takeaways:
Demostramos que el marco LCG puede mejorar el rendimiento del ajuste fino de directivas de modelos de lenguaje a gran escala con solo una pequeña cantidad de datos de alta calidad.
Proponemos un método de ajuste fino de directivas eficiente en comparación con los métodos de ajuste fino existentes basados ​​en datos masivos.
Demostramos la eficacia de una nueva técnica de filtrado de datos que combina la agrupación basada en el centro y la selección basada en la confianza.
Se lograron mejoras de rendimiento consistentes en varias métricas de evaluación, incluido MT-bench.
Limitations:
El rendimiento de LCG puede depender del rendimiento del clasificador ligero.
Los experimentos se realizaron con un tamaño de datos limitado de 6K y se necesita más investigación para determinar el rendimiento de generalización para conjuntos de datos más grandes.
Puede estar sesgado hacia ciertos tipos de directivas o conjuntos de datos.
Es necesaria una mayor validación de la generalización del marco.
👍