Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Omni-Thinker: Escalamiento de la generalización entre dominios en LLM mediante aprendizaje a distancia multitarea con recompensas híbridas
Created by
Haebom
Autor
Derek Li, Jiaming Zhou, Amirreza Kazemi, Qianyi Sun, Abbas Ghaddar, Mohammad Ali Alomrani, Liheng Ma, Yu Luo, Dong Li, Feng Wen, Jianye Hao, Mark Coates, Yingxue Zhang
Describir
Este artículo se centra en el avance de la IA de propósito general basada en modelos de lenguaje a gran escala (LLM) que ofrecen un buen rendimiento en diversas tareas. Para abordar los problemas de los métodos convencionales de ajuste fino supervisado (SFT), que presentan dificultades para generalizar y se centran en la memorización en lugar del aprendizaje por transferencia, presentamos Omni-Thinker, un marco integrado de aprendizaje por refuerzo (RL) que combina recompensas verificables basadas en reglas y señales de preferencia generativas mediante la evaluación LLM como juez. Omni-Thinker permite una optimización consistente en todos los tipos de tareas y extiende el entrenamiento basado en RL al ámbito subjetivo. Demuestra una mejora del rendimiento y una reducción del olvido mediante una progresión curricular, desde tareas estructuradas hasta tareas abiertas. Los resultados experimentales en cuatro dominios muestran que el aprendizaje curricular mejora el rendimiento en un 5,2 % con respecto al entrenamiento conjunto y en un 9,1 % con respecto a la fusión de modelos, lo que destaca la importancia del muestreo consciente de la tarea y la supervisión híbrida para extender el postentrenamiento basado en RL a los LLM de propósito general.
Takeaways, Limitations
•
Takeaways:
◦
Demostramos que Omni-Thinker es un marco de RL eficaz para mejorar el desempeño de LLM en una variedad de tareas.
◦
Demostramos que una estrategia de aprendizaje basada en el currículo mejora el rendimiento y la capacidad de generalización de la formación LLM basada en RL.
◦
Destacamos la importancia del muestreo consciente de la tarea y la supervisión híbrida.
◦
Presentamos un método novedoso para extender el entrenamiento basado en RL al dominio subjetivo.
•
Limitations:
◦
Los experimentos presentados se limitan a cuatro áreas y se necesitan experimentos adicionales en tareas y dominios más diversos.
◦
Es necesario un análisis más profundo de la fiabilidad y objetividad de la evaluación del LLM como juez.
◦
Se necesita más investigación para optimizar y generalizar el diseño curricular.
◦
Se necesita un análisis más detallado del coste computacional y la eficiencia de Omni-Thinker.