[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Control causal del lenguaje en transformadores multilingües mediante dirección de características dispersas

Created by
  • Haebom

Autor

Cheng-Ting Chou, George Liu, Jessica Sun, Cole Blondin, Kevin Zhu, Vasu Sharma, Sean O'Brien

Describir

Este artículo estudia un método para controlar determinísticamente el lenguaje de generación de un modelo de lenguaje multilingüe (LLM) a gran escala en un entorno de disparo cero. Investigamos si el lenguaje de generación de un LLM puede controlarse durante la inferencia aprovechando las características del autocodificador disperso (SAE), cuya correlación con el comportamiento interpretable del modelo se conoce en estudios previos. Utilizamos SAE preentrenados de los flujos residuales de Gemma-2B y Gemma-9B para identificar características cuyas activaciones difieren significativamente entre cuatro idiomas objetivo: inglés, chino, japonés, español y francés. Al modificar solo una característica SAE en una sola capa de transformador, logramos un cambio de idioma controlado con una tasa de éxito de hasta el 90% según la clasificación de idiomas de FastText, manteniendo al mismo tiempo la fidelidad semántica medida por la similitud de LaBSE. Nuestro análisis muestra que el control del lenguaje es más efectivo en las capas de transformador medias y tardías, y se ve amplificado por cabezas de atención específicas que se asocian desproporcionadamente con características SAE sensibles al lenguaje. Estos resultados demuestran el potencial de la dirección de características dispersas como un mecanismo liviano e interpretable para la generación multilingüe controlada.

Takeaways, Limitations

Takeaways:
Demostramos que el lenguaje generativo de LLM se puede controlar de manera efectiva en entornos de disparo cero mediante la manipulación de características del autocodificador disperso.
Consiga altas tasas de éxito (hasta el 90 %) en el cambio de idioma con una única modificación de la función SAE.
Capacidad de cambiar de idioma manteniendo la fidelidad semántica.
Identificamos capas transformadoras y cabezas de atención que son efectivas en la manipulación del lenguaje.
Presentamos un mecanismo de control generativo multilingüe ligero e interpretable.
Limitations:
Los resultados corresponden a programas de máster específicos (Gemma-2B, Gemma-9B) y a un número limitado de idiomas (inglés, chino, japonés, español, francés). La generalización a otros programas de máster o idiomas requiere mayor investigación.
Se necesita más análisis para determinar la interpretabilidad de las características SAE.
Se basan en métricas de evaluación externas como FastText y LaBSE. Es necesario considerar métodos de evaluación intrínsecos.
👍