Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¡Presta atención a las perturbaciones del mundo real! Evaluación de la robustez natural en la comprensión lectora de máquinas.

Created by
  • Haebom

Autor

Yulong Wu, Viktor Schlegel, Riza Batista-Navarro

Describir

Este artículo destaca las limitaciones de las evaluaciones de robustez existentes de los modelos de comprensión lectora automática (CLM), que se basan principalmente en perturbaciones artificiales. Proponemos un nuevo marco para evaluar la robustez de los modelos CLM basados ​​en perturbaciones textuales naturales, aprovechando el historial de edición de Wikipedia. Experimentos con el conjunto de datos SQUAD y diversas arquitecturas de modelos demuestran que las perturbaciones naturales degradan el rendimiento de los modelos de lenguaje de codificador preentrenados, y que incluso los modelos de lenguaje Flan-T5 y a gran escala (LLM) de última generación presentan estos errores. Además, demostramos que la robustez puede mejorarse utilizando datos entrenados con perturbaciones naturales o artificiales, pero que aún existen brechas de rendimiento en comparación con los datos no perturbados.

Takeaways, Limitations

Takeaways:
Superamos las limitaciones de la evaluación de la robustez del modelo MRC que se basa en métodos de perturbación artificial existentes y proponemos un nuevo marco de evaluación que utiliza perturbaciones naturales.
Hemos demostrado experimentalmente que incluso los modelos MRC de última generación son vulnerables a las perturbaciones del texto natural.
Sugerimos que la robustez del modelo se puede mejorar entrenándolo con datos naturales o perturbados artificialmente.
Limitations:
Las perturbaciones naturales basadas en el historial de edición de Wikipedia se centran en un tipo específico de perturbación, y la generalización a otros tipos de perturbaciones naturales requiere más estudios.
Los métodos de entrenamiento propuestos para mejorar la robustez ante perturbaciones naturales aún no logran superar por completo la brecha de rendimiento con datos no perturbados.
Puede que no abarque plenamente las diversas perturbaciones textuales del mundo real.
👍