Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Más allá de la piedra de Rosetta: Fuerzas de unificación en la dinámica de generalización

Created by
  • Haebom

Autor

Carter Blum, Katja Filippova, Ann Yuan, Asma Ghandeharioun, Julian Zimmert, Fred Zhang, Jessica Hoffmann, Tal Linzen, Martin Wattenberg, Lucas Dixon, Mor Geva

Describir

Este artículo explora el fenómeno de los modelos lingüísticos a gran escala (LLM) que presentan dificultades para la transferencia de conocimiento multilingüe, en concreto, el fenómeno de las alucinaciones al preguntar en un idioma sobre hechos expresados ​​en otro durante el entrenamiento. Presentamos un entorno controlado para estudiar las causas y la dinámica de este fenómeno mediante el entrenamiento de un modelo Transformer a pequeña escala desde cero con un conjunto de datos multilingües sintéticos. Identificamos las fases de aprendizaje durante las cuales el modelo desarrolla representaciones distintas o unificadas de los mismos hechos en diferentes idiomas y demostramos que la integración es esencial para la transferencia multilingüe. Además, demostramos que el grado de integración depende de la información mutua entre los hechos y los idiomas de los datos de entrenamiento, así como de la facilidad de extracción lingüística. A partir de estos conocimientos, desarrollamos un método para modular el nivel de transferencia multilingüe mediante la manipulación de la distribución y tokenización de datos, y presentamos métricas y visualizaciones que caracterizan formalmente el impacto de la integración. Este estudio demuestra cómo un entorno controlado puede contribuir a dilucidar la dinámica previa al entrenamiento y sugiere nuevas vías para mejorar la transferencia multilingüe de los LLM.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo entorno controlado para el análisis etiológico y epidemiológico de los fenómenos alucinatorios en LLM durante la transferencia de conocimiento multilingüe.
Se ha demostrado que la integración de representaciones factuales en distintos idiomas es esencial para la transferencia multilingüe.
Demostramos que la información mutua entre los hechos y el lenguaje y la facilidad de extracción del lenguaje afectan el grado de integración.
Desarrollo de un método para controlar el nivel de transferencia multilingüe a través de la distribución de datos y la manipulación de tokenización.
Presentamos nuevas métricas y herramientas de visualización para caracterizar el efecto de integración.
Presentamos nuevas direcciones de investigación para mejorar la transferencia multilingüe de títulos de maestría en derecho.
Limitations:
El uso de conjuntos de datos sintéticos limita la generalización a conjuntos de datos del mundo real.
Dificultad para generalizar los resultados a modelos más grandes utilizando modelos Transformer de pequeña escala.
Se necesitan más investigaciones sobre la aplicación práctica y la eficacia de los métodos propuestos en los LLM.
👍