Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modelos lingüísticos grandes posteriores al entrenamiento para obtener respuestas diversas y de alta calidad

Created by
  • Haebom

Autor

Yilei Chen, Souradip Chakraborty, Lorenz Wolf, Yannis Paschalidis, Aldo Pacchiano

Describir

El aprendizaje por refuerzo (AR) se utiliza ampliamente para el post-entrenamiento de modelos de lenguaje a gran escala (LLMs), pero tiende a reducir la diversidad de salida del modelo. Los métodos existentes de mejora de la diversidad tienen limitaciones, operando en tiempo de inferencia o enfocándose en diferencias superficiales. Este artículo propone un novedoso método de entrenamiento, Optimización de la Calidad de la Diversidad (DQO), basado en procesos de puntos determinantes (DPPs), para optimizar conjuntamente la calidad y la diversidad semántica. Para cada indicación, DQO muestrea e incrusta un grupo de respuestas, luego mide la diversidad como el volumen representado por la incrustación de estas respuestas usando el determinante de una matriz de similitud basada en kernel. DQO es flexible y adaptable a los algoritmos de RL existentes. Experimentos en seguimiento de instrucciones, resumen, generación de historias e inferencia demuestran que DQO mejora significativamente la diversidad semántica sin comprometer la calidad del modelo.

Takeaways, Limitations

DQO presenta una novedosa metodología de entrenamiento para abordar el problema de diversidad de salida de LLM.
Se ha demostrado que DQO mejora la diversidad semántica sin comprometer la calidad.
DQO se puede aplicar fácilmente a algoritmos RL existentes.
Este artículo demuestra la eficacia de DQO en diversas tareas.
Aunque este artículo no menciona el Limitations específico de DQO, puede haber complejidad computacional o dificultad en el ajuste de hiperparámetros de la metodología basada en DPP.
👍