Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Repensando el papel de la complejidad del texto en el preentrenamiento de modelos lingüísticos

Created by
  • Haebom

Autor

Dan John Velasco, Mateo Theodore Roque

Describir

Este artículo se centra en el hecho de que, si bien se sabe que mejorar la calidad y el tamaño de los datos de preentrenamiento mejora el rendimiento posterior, el impacto de la complejidad del texto (dificultad de lectura) ha sido relativamente menos estudiado. Al reducir la complejidad superficial (es decir, usar oraciones más cortas, palabras más fáciles y estructuras más simples, manteniendo un contenido central en gran medida consistente), estudiamos (i) cómo la complejidad del texto afecta a varios tamaños de modelo, (ii) si se pueden aprender representaciones útiles solo a partir de texto simple, y (iii) cómo la complejidad del texto de preentrenamiento afecta la comprensión del lenguaje posterior. Para lograr esto, utilizamos un modelo de lenguaje a gran escala para simplificar textos escritos por humanos. Los modelos causales (28M-500M) se preentrenaron desde cero utilizando los datos originales y simplificados, y luego se ajustaron y evaluaron en configuraciones de disparo cero.

Takeaways, Limitations

Takeaways:
El rendimiento del modelo varía según la interacción entre el tamaño del modelo y la complejidad del texto. Los modelos más pequeños presentan una menor degradación del rendimiento con textos más simples.
La complejidad del texto tiene poco efecto en la evaluación del ajuste fino.
En la evaluación de disparo cero, los textos simples son ventajosos para tareas que involucran conocimiento lingüístico, mientras que los textos más complejos son ventajosos para tareas que requieren conocimiento del mundo y seguimiento de objetos.
La diversidad de datos afecta el aprendizaje por transferencia y el rendimiento de cero disparos de manera diferente, lo que brinda información útil para adaptar la curación de datos a objetivos específicos.
Limitations:
La referencia a Limitations específico no está incluida en el resumen del artículo.
👍