[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Agente de mezcla de datos: aprender a reponderar los dominios para el preentrenamiento continuo

Created by
  • Haebom

Autor

Kailai Yang, Xiao Liu, Lei Ji, Hao Li, Yeyun Gong, Peng Cheng, Mao Yang

Describir

En este artículo, proponemos un método de preentrenamiento continuo con datos pequeños y específicos de tareas para abordar el problema del olvido catastrófico que surge en el preentrenamiento continuo de modelos lingüísticos a gran escala para nuevos dominios objetivo. Mientras que las estrategias actuales de reponderación de dominios se basan en la especificación manual de heurísticas basadas en la intuición humana o resultados empíricos, proponemos el primer marco integral basado en modelos, Data Mixing Agent, para parametrizar heurísticas más generales. Data Mixing Agent aprende heurísticas generalizables mediante aprendizaje por refuerzo a partir de un gran número de rutas de mezcla de datos y la retroalimentación de entornos de evaluación. En experimentos de preentrenamiento continuo sobre inferencia matemática, Data Mixing Agent supera a los modelos de referencia robustos al lograr un rendimiento equilibrado en los puntos de referencia de los campos fuente y objetivo. También se generaliza correctamente a campos fuente, modelos objetivo y espacios de dominio no vistos sin necesidad de reentrenamiento. Las aplicaciones directas a la generación de código demuestran su adaptabilidad a los dominios objetivo. Un análisis posterior demuestra que las heurísticas del agente se ajustan bien a la intuición humana y son eficientes para lograr un buen rendimiento del modelo con una pequeña cantidad de datos del campo fuente.

Takeaways, Limitations

Takeaways:
Superamos las limitaciones de los métodos manuales existentes basados en heurísticas al automatizar las estrategias de reequilibrio del peso del dominio a través de un marco de extremo a extremo basado en modelos.
Ha logrado un rendimiento superior a los métodos existentes en razonamiento matemático y generación de código, demostrando su aplicabilidad en diversos campos.
Mayor eficiencia al lograr un rendimiento excelente incluso con menos datos de campo fuente.
Las heurísticas aprendidas coincidieron bien con la intuición humana, aumentando la confiabilidad.
Mostramos una buena generalización incluso en campos de origen, modelos de destino y espacios de dominio invisibles.
Limitations:
Entrenar a un agente de mezcla de datos puede requerir cantidades significativas de datos y recursos computacionales.
Es posible que hayan aprendido heurísticas específicas del dominio y se necesita más investigación para determinar si pueden generalizarse a todos los dominios.
El rendimiento puede verse afectado por el diseño del entorno de evaluación. Se requiere más investigación para determinar la generalización del entorno de evaluación.
👍