Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Eco: Desacoplamiento de la inferencia y el entrenamiento para la alineación RL a gran escala en enjambres heterogéneos

Created by
  • Haebom

Autor

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

Describir

Este artículo destaca las limitaciones de los enfoques existentes que realizan inferencia y optimización de políticas en el mismo clúster de GPU durante el post-entrenamiento de modelos de lenguaje a gran escala (LLM) basado en aprendizaje por refuerzo. Este enfoque viola el supuesto de "Programa Único, Múltiples Datos" (SPMD) y, por lo tanto, reduce la eficiencia. Por lo tanto, proponemos un sistema de aprendizaje por refuerzo llamado Echo, que mantiene la eficiencia estadística separando la inferencia y el entrenamiento en enjambres heterogéneos de "inferencia" y "entrenamiento". Echo introduce dos protocolos de sincronización ligeros: un modo de extracción secuencial, que actualiza los pesos de las políticas según las llamadas a la API para minimizar el sesgo, y un modo de inserción-extracción asíncrono, que transmite las implementaciones etiquetadas por versión a través de un búfer de reproducción para maximizar la utilización del hardware. El entrenamiento de tres tareas representativas de aprendizaje por refuerzo en clústeres distribuidos geográficamente utilizando Qwen3-4B, Qwen2.5-7B y Qwen3-32B revela que Echo alcanza una velocidad de convergencia y un rendimiento de recompensa final comparables a los de una línea base Verl completamente coubicada, a la vez que descarga las tareas de inferencia al hardware de borde común. Estos resultados demuestran que el aprendizaje de refuerzo LLM a gran escala puede lograr un rendimiento a nivel de centro de datos utilizando recursos distribuidos y heterogéneos.

Takeaways, Limitations

Takeaways:
En el aprendizaje de refuerzo para modelos lingüísticos a gran escala, disociar la inferencia del entrenamiento presenta el potencial de aprovechar de manera eficiente recursos heterogéneos y distribuidos geográficamente.
Descargue las tareas de inferencia al hardware de borde para reducir costos y mantener el rendimiento a nivel de centro de datos.
El modo de extracción secuencial y el modo de inserción-extracción asincrónico le permiten maximizar la utilización del hardware mientras mantiene la eficiencia estadística.
Limitations:
Se necesitan más investigaciones para investigar la escalabilidad del sistema Echo propuesto y su compatibilidad con varios LLM.
Se requiere un análisis detallado de los retrasos en las comunicaciones y el manejo de errores que pueden ocurrir en entornos distribuidos geográficamente.
Se requieren evaluaciones de rendimiento adicionales en varios entornos de hardware.
👍