Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mejora de la diversidad en modelos lingüísticos grandes mediante procesos puntuales determinantes

Created by
  • Haebom

Autor

Yilei Chen, Souradip Chakraborty, Lorenz Wolf, Ioannis Ch. Paschalidis, Aldo Pacchiano

Describir

Este artículo destaca el problema de que el ajuste fino supervisado y el aprendizaje por refuerzo, como métodos posteriores al entrenamiento para modelos lingüísticos a gran escala (LLM), contribuyen a mejorar el rendimiento del modelo, pero reducen la diversidad de salida, lo que genera respuestas estrechas y típicas. Los métodos existentes que mejoran la diversidad presentan limitaciones, ya que operan en el momento de la inferencia o se centran únicamente en las diferencias léxicas. En respuesta, este artículo propone DQO, un novedoso método de entrenamiento basado en el Proceso de Punto de Decisión (DPP). DQO muestrea e integra múltiples respuestas para cada indicación, midiendo la diversidad midiendo el volumen ocupado por estas integraciones de respuesta. Experimentos en diversas tareas (seguimiento de instrucciones, resumen, generación de historias e inferencia) demuestran que DQO mejora significativamente la diversidad semántica sin comprometer la calidad del modelo.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de entrenamiento (DQO) que optimiza simultáneamente la calidad y la diversidad semántica de los LLM mediante el uso del proceso de punto de decisión (DPP).
Superar las limitaciones de los métodos existentes, como centrarse en la operación en tiempo de inferencia o en las diferencias léxicas.
Se demostró eficacia en el mantenimiento de la calidad del modelo al tiempo que se mejora la diversidad semántica en diversas tareas.
Limitations:
La complejidad computacional de los métodos de medición de diversidad basados ​​en DPP puede ser alta.
Puede existir una dependencia en el uso de un tipo específico de kernel.
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
👍