Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Informe técnico de PLaMo 2

Created by
  • Haebom

Autor

Redes preferidas, :, Kaizaburo Chubachi, Yasuhiro Fujita, Shinichi Hemmi, Yuta Hirokawa, Toshiki Kataoka, Goro Kobayashi, Kenichi Maehashi, Calvin Metzger, Hiroaki Mikami, Shogo Murai, Daisuke Nishino, Kento Nozawa, Shintarou Okada, Daisuke Okanohara, Shunta Saito, Shotaro Sano, Shuji Suzuki, Daisuke Tanaka, Avinash Ummadisingu, Hanqin Wang, Sixue Wang, Tianqi Xu

Describir

PLaMo 2 es una serie de modelos lingüísticos a gran escala especializados en japonés. Utiliza una arquitectura híbrida basada en Samba y, mediante preentrenamiento continuo, alcanza la atención plena, compatible con contextos de tokens de 32 000. Para abordar la escasez de datos, se entrenó con un extenso corpus sintético, logrando eficiencia computacional mediante la reutilización de pesos y la poda estructural. Esta eficiente metodología de poda generó un modelo de 8 000 millones de bytes con un rendimiento comparable al de un modelo de 100 000 millones de bytes. El postentrenamiento mejoró aún más el modelo mediante el ajuste fino del aprendizaje supervisado (SFT) y la optimización de la preferencia directa (DPO), aprovechando datos sintéticos de instrucciones japonesas y técnicas de fusión de modelos. La inferencia se optimizó mediante vLLM y cuantificación para minimizar la pérdida de precisión. Obtuvo resultados de vanguardia en las pruebas de referencia japonesas, superando a modelos abiertos de tamaño similar en seguimiento de instrucciones, fluidez lingüística y conocimiento específico del japonés.

Takeaways, Limitations

Takeaways:
Mejoramos la eficiencia y el rendimiento de los modelos de lenguaje a gran escala con una arquitectura híbrida basada en Samba y soporte para contextos de tokens de 32K a través de un entrenamiento previo continuo.
Al utilizar datos sintéticos y técnicas de poda eficientes, redujimos con éxito el peso del modelo logrando el rendimiento de un modelo 100B con un modelo 8B.
Logramos un rendimiento de última generación en puntos de referencia japoneses utilizando técnicas de post-entrenamiento como SFT, DPO, datos sintéticos y fusión de modelos.
La optimización de la inferencia a través de vLLM y cuantificación permite una inferencia eficiente sin comprometer la precisión.
Limitations:
Debido a la gran dependencia de datos sintéticos, existe la posibilidad de degradación del rendimiento debido a diferencias con los datos reales.
Aunque se ha reducido el tamaño del modelo, todavía puede requerir recursos computacionales significativos.
En este documento falta una descripción detallada del método específico de generación de datos sintéticos o de las configuraciones detalladas de las canalizaciones SFT y DPO.
Hay una falta de validación de la aplicabilidad y el rendimiento de generalización a otros lenguajes.
👍