Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Uso de modelos cognitivos para revelar compensaciones de valores en modelos lingüísticos

Created by
  • Haebom

Autor

Sonia K. Murthy, Rosie Zhao, Jennifer Hu, Sham Kakade, Markus Wulfmeier, Peng Qian, Tomer Ullman

Describir

Señalando la falta de herramientas para interpretar las compensaciones de valor en los modelos de lenguaje a gran escala (LLMs), presentamos una investigación que evalúa las compensaciones de valor de los LLMs utilizando modelos cognitivos de la ciencia cognitiva. Específicamente, analizamos el esfuerzo de inferencia del modelo y la dinámica del aprendizaje de refuerzo (LR) post-entrenamiento utilizando un modelo cognitivo de uso del lenguaje cortés. Encontramos que el comportamiento predeterminado del modelo prioriza la utilidad informativa sobre la utilidad social, y que este patrón cambia de manera predecible cuando se le pide que priorice objetivos específicos. Además, estudiamos la dinámica de entrenamiento de los LLM, revelando que la elección del modelo base y los datos pre-entrenamiento influyen significativamente en los cambios de valor. El marco propuesto puede contribuir a identificar compensaciones de valor entre varios tipos de modelos, generando hipótesis sobre comportamientos sociales como la adulación y diseñando métodos de entrenamiento que controlen el equilibrio entre valores durante el desarrollo del modelo.

Takeaways, Limitations

Takeaways:
Un nuevo marco para evaluar las compensaciones de valor del LLM.
Análisis del impacto del método de inferencia del modelo y la dinámica de entrenamiento en el balance de valores.
Sugerir la posibilidad de controlar el equilibrio de valores a través de métodos de entrenamiento de modelos.
Limitations:
Falta de detalles sobre modelos específicos y métodos de entrenamiento.
Generalización limitada a otros comportamientos sociales.
Se necesita más investigación sobre cómo medir cuantitativamente las compensaciones de valor.
👍