Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los modelos de lenguaje grandes se generalizan mal en cuanto a longitud de opciones, tipos de problemas y reemplazos de sustantivos irrelevantes

Created by
  • Haebom

Autor

Guangxiang Zhao, Saier Hu, Xiaoqi Jian, Jinzhu Wu, Yuhan Wu, Change Jia, Lin Sun, Xiangzheng Zhang

Describir

Este artículo propone una prueba de estrés de generalización para evaluar la capacidad de generalización de los modelos lingüísticos a gran escala (MLG). Evaluamos dicha capacidad aplicando cambios menores y controlados a la longitud de las opciones, el tipo de pregunta y la sustitución de sustantivos irrelevantes. Los resultados experimentales revelan que, a pesar de las altas puntuaciones de referencia, los MML presentan una degradación significativa de la precisión y sesgos inesperados (p. ej., una preferencia por respuestas incorrectas más largas) al enfrentarse a estas modificaciones menores que preservan el contenido. Por ejemplo, la puntuación MMLU de Qwen 2.5 1.5B aumenta de 60 a 89 al cambiar la longitud de las opciones, pero disminuye de 89 a 36 cuando la pregunta permanece sin cambios. Incluso el GPT-4 experimenta una pérdida de precisión de 25 puntos al cambiar el tipo de pregunta, con una disminución de 6 puntos en las tres categorías de modificación. Este análisis sugiere que los MML se basan en gran medida en claves superficiales en lugar de formar representaciones robustas y abstractas que se generalicen en función del formato, la variación léxica y la variación de contenido irrelevante.

Takeaways, Limitations

Takeaways:
Esto demuestra que los altos puntajes de referencia del LLM pueden no reflejar una capacidad real de generalización.
Esto sugiere que los LLM operan con pistas superficiales y se basan en la comparación de patrones más que en una comprensión verdadera.
Presentamos una nueva metodología, la "prueba de estrés de generalización", para evaluar la capacidad de generalización de los LLM.
Enfatizamos la importancia de mejorar las habilidades de generalización en el desarrollo de LLM.
Limitations:
Se necesitan más investigaciones para explorar la generalización y escalabilidad de la “prueba de estrés generalizada” propuesta.
El tipo y la intensidad de la perturbación utilizada en las pruebas pueden ser limitados.
Dado que estos resultados corresponden a un LLM y un conjunto de datos específicos, es necesario tener cuidado al generalizarlos a otros LLM o conjuntos de datos.
👍