[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿La calidad o la cantidad de los datos de entrenamiento tienen mayor impacto en el rendimiento de un modelo de lenguaje pequeño?

Created by
  • Haebom

Autor

Ario Sajith, Krishna Chaitanya Rao Kathala

Describir

Este estudio analiza experimentalmente el impacto relativo de la calidad y cantidad de los datos de entrenamiento en el rendimiento de los modelos de lenguaje a pequeña escala (SLM) utilizando el conjunto de datos TinyStories. Realizamos experimentos variando el tamaño del conjunto de datos (25% y 50% del original) y la tasa de redundancia (25%, 50%, 75% y 100%). Los resultados de la evaluación del rendimiento del modelo a través de métricas de pérdida de validación, precisión y perplejidad muestran que la calidad de los datos de entrenamiento juega un papel más importante en el rendimiento general de los SLM, especialmente considerando la escala de este experimento. Si bien la redundancia mínima mejoró ligeramente la precisión del modelo (aumento del 0,87% en la precisión con una redundancia del 25%), la redundancia excesiva resultó en una disminución del rendimiento (disminución del 40% en la precisión con una redundancia del 100%). Más allá del rendimiento del modelo, este estudio proporciona Takeaways que puede contribuir a la democratización de la tecnología de IA al considerar los problemas económicos y ambientales del entrenamiento de modelos a gran escala.

Takeaways, Limitations

Takeaways:
Demostramos empíricamente que la calidad de los datos es más importante que la cantidad para mejorar el rendimiento de los modelos lingüísticos a pequeña escala.
Un nivel apropiado de redundancia de datos puede contribuir a mejorar el rendimiento del modelo, pero una redundancia excesiva puede, en realidad, provocar una degradación del rendimiento.
Un enfoque centrado en la calidad de los datos puede abordar los desafíos ambientales y de costos del entrenamiento de modelos a gran escala y aumentar la accesibilidad a la tecnología de IA.
Limitations:
Dado que solo realizamos nuestros experimentos utilizando el conjunto de datos TinyStories, la generalización a otros conjuntos de datos puede ser limitada.
Falta de descripción detallada de los tipos y estructuras de los modelos de lenguaje a pequeña escala utilizados en el análisis.
Se necesita una explicación clara de cómo se definen y miden las consultas de datos.
👍