Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cómo la formación posterior transforma los LLM: una visión mecanicista del conocimiento, la veracidad, el rechazo y la confianza

Created by
  • Haebom

Autor

Hongzhe Du, Weikai Li, Min Cai, Karim Saraipour, Zimin Zhang, Himabindu Lakkaraju, Yizhou Sun, Shichang Zhang

Describir

Este artículo proporciona un análisis mecanicista de cómo el proceso de posentrenamiento, esencial para transformar un modelo lingüístico a gran escala (LLM) preentrenado en un modelo postentrenado más útil y alineado, reestructura la estructura interna del LLM. Comparamos y analizamos el modelo base y los modelos postentrenados en familias de modelos y conjuntos de datos desde cuatro perspectivas: ubicaciones de almacenamiento del conocimiento factual, representaciones del conocimiento, representaciones de verdad y rechazo, y niveles de confianza. Concluimos que: en primer lugar, el posentrenamiento desarrolla nuevas representaciones del conocimiento al tiempo que adapta las representaciones del modelo base sin alterar las ubicaciones de almacenamiento del conocimiento factual. En segundo lugar, la verdad y el rechazo pueden representarse como vectores en el espacio de representación oculto, y la orientación de la verdad es muy similar entre el modelo base y los modelos postentrenados, transfiriéndose eficazmente a las intervenciones. En tercer lugar, la orientación del rechazo difiere entre el modelo base y los modelos postentrenados, lo que presenta una transferibilidad limitada. En cuarto lugar, las diferencias de confianza entre el modelo base y los modelos postentrenados no pueden atribuirse a neuronas de entropía. Este estudio proporciona información sobre los mecanismos subyacentes que se mantienen y cambian durante el post-entrenamiento, facilita el trabajo posterior como el ajuste del modelo y potencialmente informa investigaciones futuras sobre interpretabilidad y LLM post-entrenamiento.

Takeaways, Limitations

Takeaways:
Mayor comprensión de los mecanismos fundamentales del post-entrenamiento.
Contribuir a mejorar el trabajo de seguimiento, como la dirección del modelo.
Una nueva dirección para la interpretabilidad del LLM y la investigación posterior a la formación
Identificación de cambios en la representación del conocimiento durante la etapa posterior al entrenamiento
Proporciona un análisis de la representación vectorial y la comunicabilidad de las expresiones de verdad y negación.
Limitations:
Dado que los resultados del análisis corresponden a una serie de modelos y un conjunto de datos específicos, se necesita más investigación para determinar su generalización.
Se debe considerar la posibilidad de diferencias de confiabilidad debido a factores distintos a las neuronas de entropía.
Se necesitan más análisis y medidas de mejora para abordar la transmisibilidad limitada de la dirección de rechazo.
👍