Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La ilusión de la personalidad: revelando la disociación entre los autoinformes y el comportamiento en los LLM

Created by
  • Haebom

Autor

Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez

Describir

Este artículo analiza sistemáticamente los rasgos de personalidad en modelos lingüísticos a gran escala (LLM), evaluando la dinámica de la expresión de rasgos en las distintas etapas del entrenamiento, la validez predictiva de los rasgos autoinformados y el impacto de intervenciones como la infusión de personalidad. Nuestros hallazgos demuestran que el ajuste instruccional (p. ej., RLHF) estabiliza la expresión de rasgos y fortalece las correlaciones de rasgos de forma similar a los datos humanos, pero los rasgos autoinformados no predicen el comportamiento de forma fiable, y las correlaciones observadas a menudo no se alinean con los patrones humanos. La infusión de personalidad dirige con éxito los autoinformes en la dirección deseada, pero tiene efectos escasos o inconsistentes en el comportamiento real. Por lo tanto, al distinguir entre la expresión superficial de rasgos y la consistencia conductual, cuestionamos las suposiciones sobre la personalidad en los LLM y destacamos la necesidad de una evaluación más profunda de la alineación y la interpretabilidad.

Takeaways, Limitations

Takeaways:
Durante mi formación de LLM, descubrí que la alineación directiva juega un papel crucial en el aumento de la estabilidad y la consistencia de la expresión de los rasgos de personalidad.
Los rasgos de personalidad autoinformados de LLM muestran limitaciones a la hora de predecir el comportamiento real.
Descubrimos que intervenciones como la infusión de personalidad influyeron en los autoinformes de LLM pero tuvieron efectos limitados en el cambio de comportamiento real.
Limitations:
Es posible que los rasgos de personalidad del LLM se evaluaran únicamente con base en autoinformes y observaciones conductuales. Se podrían requerir métodos de evaluación más diversos y sofisticados.
Los resultados pueden variar según el tipo de LLM utilizado en el estudio y las características de los datos de entrenamiento. Se requiere más investigación para determinar su generalización.
La compleja relación entre los rasgos de personalidad y los comportamientos en el LLM podría no explicarse completamente. Se requieren más análisis e interpretación.
👍