[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

El impacto de la mezcla de idiomas en el razonamiento bilingüe de LLM

Created by
  • Haebom

Autor

Yihao Li, Jiayi Xin, Miranda Muqing Miao, Qi Long, Lyle Ungar

Describir

Este artículo estudia el fenómeno del cambio de idioma en modelos de inferencia bilingües chino-inglés. En un modelo de lenguaje bilingüe a gran escala (LLM) de vanguardia con una sólida capacidad bilingüe, se observa mezcla de idiomas durante el proceso de pensamiento, y se confirma que la precisión se reduce cuando se suprime en el modelo DeepSeek-R1. Este estudio revela que el aprendizaje por refuerzo y la recompensa verificable (RLVR) son los pasos clave del entrenamiento que inducen el cambio de idioma, y prueba experimentalmente que el cambio de idioma contribuye a la mejora de la capacidad de inferencia. Cuando se fuerza la decodificación de un solo idioma en una tarea de razonamiento matemático, la precisión disminuye un 5,6%, y cuando se utilizan sondas ligeras para predecir si el cambio de idioma es útil o perjudicial para la inferencia y se utilizan para la decodificación, la precisión puede mejorarse hasta en un 6,25%. En conclusión, se sugiere que el cambio de idioma no es un simple subproducto del entrenamiento multilingüe, sino un comportamiento de inferencia estratégico.

Takeaways, Limitations

Takeaways:
Revelamos que el cambio de idioma en un LLM bilingüe puede contribuir a mejorar el rendimiento de la inferencia.
Proponemos que el aprendizaje de refuerzo con recompensas verificables (RLVR) es un factor clave en el impulso del fenómeno del cambio de idioma.
Demostramos que la precisión de la inferencia se puede mejorar utilizando sondas livianas que predicen el beneficio del cambio de idioma.
Sugerimos que el cambio de idioma no es un simple subproducto sino un acto estratégico de razonamiento.
Limitations:
El estudio se limitó a un modelo bilingüe específico (DeepSeek-R1) y a una tarea de razonamiento matemático, lo que requiere más investigación sobre generalización.
El rendimiento de las sondas ligeras puede depender de conjuntos de datos y modelos específicos.
Se necesitan más investigaciones sobre otros tipos de tareas de razonamiento y otras combinaciones de lenguajes.
Es necesario un análisis más profundo de los mecanismos por los cuales el cambio de idioma afecta la inferencia.
👍