Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DaMoC: Selección eficiente del modelo de lenguaje grande óptimo para ajustar tareas de dominio basadas en datos y compresión de modelos

Created by
  • Haebom

Autor

Wei Huang, Huang Wei, Yinggui Wang

Describir

Este artículo propone un marco de compresión de datos y modelos (DaMoC) que aborda el problema de seleccionar rápidamente el modelo óptimo entre numerosos modelos de lenguaje a gran escala (LLM) de código abierto para el ajuste fino de tareas de dominio específicas. DaMoC consta de dos aspectos: los niveles de datos y de modelo. A nivel de datos, categorizamos los métodos de filtrado de datos en tres paradigmas: enfoques con conocimiento de la distribución, con conocimiento de la calidad e híbridos. Logramos la compresión de tokens aumentando la densidad de tokens clave y optimizamos la representación reescribiendo texto iterativamente utilizando LLM. A nivel de modelo, utilizamos puntuaciones de similitud jerárquica para evaluar la importancia de cada capa, podando capas con baja importancia e introduciendo un paradigma de fusión dispersa para maximizar la preservación de las características del modelo original. A través de experimentos extensos en cuatro conjuntos de datos (preguntas y respuestas médicas, preguntas y respuestas financieras, preguntas y respuestas generales y comprensión lectora), demostramos que seleccionar el LLM óptimo reduce el tiempo de entrenamiento aproximadamente 20 veces.

Takeaways, Limitations

Takeaways:
Proporcionamos un marco para seleccionar de manera eficiente el modelo óptimo para una tarea específica entre varios LLM de código abierto.
Reduce drásticamente el tiempo de entrenamiento para el ajuste fino de LLM (aproximadamente 20x) mediante la compresión de datos y modelos.
Categorizamos sistemáticamente las metodologías de filtrado de datos y presentamos estrategias efectivas para el ajuste fino del LLM.
Limitations:
El rendimiento del marco propuesto puede depender del conjunto de datos y la tarea utilizada. Se requieren experimentos adicionales con diversos conjuntos de datos y tareas.
La falta de una descripción detallada de la metodología específica del “paradigma de fusión dispersa” requiere una revisión de la reproducibilidad.
Se necesitan más investigaciones para verificar si el efecto de reducción del tiempo de entrenamiento de 20x es consistente en todos los casos.
👍