Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La asertividad se puede descomponer mecanísticamente en componentes emocionales y lógicos

작성자
  • Haebom

Autor

Hikaru Tsujimura, Arush Tagade

Describir

Este artículo investiga el problema del exceso de confianza en los modelos lingüísticos a gran escala (LLM) desde una perspectiva de interpretabilidad mecanicista. Utilizando el modelo Llama 3.2 de código abierto, optimizado con un conjunto de datos de asertividad anotados por personas, extraemos activaciones residuales en todas las capas y localizamos las expresiones asertivas mediante una medida de similitud. Nuestro análisis identifica las capas más sensibles a los contrastes de asertividad y revela que las expresiones de alta asertividad se descomponen en dos subcomponentes ortogonales: grupos afectivos y lógicos, de forma similar al modelo de probabilidad de elaboración de doble ruta en psicología. Los vectores de dirección derivados de estos subcomponentes exhiben efectos causales distintivos: los vectores afectivos ejercen una amplia influencia en la precisión de la predicción, mientras que los vectores lógicos ejercen una influencia más localizada. Estos resultados proporcionan evidencia mecanicista de la estructura multicomponente de la asertividad LLM y sugieren estrategias para mitigar el comportamiento de exceso de confianza.

Takeaways, Limitations

Takeaways:
Se descubrió que el exceso de confianza de LLM tenía una estructura multicomponente que constaba de dos subcomponentes: emocional y lógico.
Sugerimos que los vectores de dirección de los subcomponentes emocionales y lógicos tienen diferentes efectos en la precisión de la predicción.
Un nuevo enfoque para aliviar el problema del exceso de confianza en los LLM.
Mejorar la comprensión de los mecanismos de funcionamiento internos del LLM aprovechando la interpretabilidad mecánica.
Limitations:
El modelo utilizado en este estudio se limitó a un modelo específico de código abierto (Llama 3.2). Se requiere más investigación para determinar su generalización a otros modelos.
Es necesario tener en cuenta la calidad y el sesgo de los conjuntos de datos anotados por humanos.
La definición y distinción entre subcomponentes emocionales y lógicos puede ser subjetiva.
Es necesaria una mayor validación de la eficacia real y la generalización de las medidas de mitigación propuestas.
👍