Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Este documento aborda dos fuentes principales de datos de entrenamiento para modelos de lenguaje moderno posteriores al aprendizaje: datos en línea (implementaciones de generación de modelos) y datos fuera de línea (demostraciones de modelos humanos u otros). Enfoques como el aprendizaje por refuerzo (RL) y el ajuste fino supervisado (SFT) utilizan cada uno estos dos tipos de datos. Este documento demuestra que estos enfoques no son contradictorios, sino más bien instancias de un único proceso de optimización. Derivamos un estimador de gradiente de política unificado y presentamos el cálculo de un enfoque integral de post-aprendizaje como el gradiente de un objetivo común bajo varios supuestos de distribución de datos y compensaciones de sesgo-varianza. Este estimador de gradiente consta de cuatro partes intercambiables: una máscara de estabilización, un denominador de política de referencia, un estimador de beneficios y un gradiente de verosimilitud. Con base en hallazgos teóricos, este documento propone el Post-Aprendizaje Híbrido (HPT), un algoritmo que selecciona dinámicamente señales de entrenamiento. HPT está diseñado para proporcionar tanto la utilización efectiva de demostraciones como una exploración robusta sin sacrificar los patrones de inferencia aprendidos. Este artículo presenta amplios estudios experimentales y de ablación para validar el marco teórico unificado y la eficacia de HPT. En seis parámetros de inferencia matemática y dos valores atípicos distribucionales, HPT supera consistentemente a los modelos de referencia robustos en una variedad de tamaños y clases de modelos.
Takeaways, Limitations
•
Takeaways:
◦
Mejoramos la comprensión teórica al presentar un único marco de optimización que integra enfoques posteriores al entrenamiento (por ejemplo, RL, SFT).
◦
Proponemos un algoritmo híbrido de post-entrenamiento (HPT) eficaz que logra simultáneamente la utilización de la demostración y la exploración estable.
◦
Verificamos experimentalmente el rendimiento superior de HPT en varios puntos de referencia.
◦
Mostró mejoras consistentes en el rendimiento independientemente del tamaño y la serie del modelo.
•
Limitations:
◦
Es posible que se necesiten más investigaciones para determinar los parámetros óptimos del algoritmo HPT propuesto.
◦
Se requiere una mayor validación del rendimiento de generalización en diferentes tipos de modelos de lenguaje y tareas.
◦
Puede ser necesario un análisis detallado del coste computacional y la eficiencia del HPT.