Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Una encuesta sobre el post-entrenamiento de modelos lingüísticos de gran tamaño

Created by
  • Haebom

Autor

Guiyao Tie, Zeli Zhao, Dingjie Song, Fuyang Wei, Rong Zhou, Yurou Dai, Wen Yin, Zhejian Yang, Jiangyue Yan, Yao Su, Zhenhan Dai, Yifeng Xie, Yihan Cao, Lichao Sun, Pan Zhou, Lifang He, Hechang Chen, Yu Zhang, Qingsong Wen, Tianming Liu, Neil Zhenqiang Gong, Jiliang Tang, Caiming Xiong, Heng Ji, Philip S. Yu, Jianfeng Gao

Describir

Este artículo presenta el primer estudio exhaustivo de los modelos lingüísticos posaprendizaje (PoLM). La llegada de los modelos lingüísticos a gran escala (LLM) ha revolucionado el campo del procesamiento del lenguaje natural (PLN), pero también presenta limitaciones como capacidades de inferencia limitadas, incertidumbres éticas y bajo rendimiento en dominios específicos. Para abordar estos desafíos, han surgido PoLM (también conocidos como modelos de inferencia a gran escala, LRM) como OpenAI-o1/o3 y DeepSeek-R1. Este artículo rastrea sistemáticamente la evolución de los PoLM, centrándose en cinco paradigmas fundamentales: ajuste fino, alineación, inferencia, eficiencia, integración y adaptación. Desde la estrategia de alineación de ChatGPT hasta los innovadores avances en inferencia de DeepSeek-R1, demostramos cómo los PoLM aprovechan los conjuntos de datos para mitigar el sesgo, profundizar en las capacidades de inferencia y mejorar la adaptabilidad del dominio. Nuestras contribuciones incluyen una síntesis pionera de los avances en PoLM, una taxonomía estructurada que categoriza técnicas y conjuntos de datos, y una agenda estratégica que destaca el papel de los LRM en la mejora de las capacidades de inferencia y la flexibilidad del dominio. Este estudio integra los avances recientes en PoLM y establece un marco intelectual riguroso para la investigación futura, impulsando el desarrollo de LLM que destaquen por su rigor, solidez ética y versatilidad en aplicaciones científicas y sociales.

Takeaways, Limitations

Takeaways:
Organizamos sistemáticamente el desarrollo de PoLM y presentamos cinco paradigmas centrales para proporcionar una comprensión integral de la investigación de PoLM.
Presentamos un sistema de clasificación estructurado para técnicas y conjuntos de datos PoLM, sugiriendo futuras direcciones de investigación.
Presentamos una agenda estratégica para mejorar las capacidades de razonamiento y la flexibilidad del dominio del LLM.
Contribuir al desarrollo de LLM que destaquen por su precisión, solidez ética y versatilidad en aplicaciones científicas y sociales.
Limitations:
Si bien este artículo constituye el primer estudio exhaustivo sobre PoLM, es posible que el rápido desarrollo de este campo no abarque por completo las últimas tendencias de investigación.
En lugar de un análisis en profundidad de modelos o técnicas PoLM específicos, se centra en proporcionar una descripción general de las tendencias generales de desarrollo.
Aunque presenta una agenda estratégica para futuras investigaciones, no proporciona detalles sobre la metodología de investigación específica o el diseño experimental.
👍