Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Qué se ha perdido con la evaluación sintética?

Created by
  • Haebom

Autor

Alexander Gill, Abhilasha Ravichander, Ana Marasovi c.

Describir

Con el creciente uso de modelos lingüísticos a gran escala (LLM) para la generación de datos, ha aumentado la importancia de generar parámetros de evaluación. Este artículo examina si los LLM pueden cumplir los requisitos para generar parámetros de texto basados ​​en inferencia mediante dos estudios de caso. Específicamente, evaluamos versiones generadas por LLM de dos conjuntos de datos de comprensión lectora de alta calidad (CondaQA, que evalúa la inferencia de negación, y DROP, que evalúa la inferencia de cuantificación) y las comparamos con conjuntos de datos originales de colaboración abierta. Observamos que los LLM pueden generar versiones válidas de los conjuntos de datos originales a bajo costo, siguiendo las directrices de estos, pero son menos complejos que los parámetros generados por humanos.

Takeaways, Limitations

La generación de datos mediante LLM permite la creación de puntos de referencia válidos y rentables.
Los puntos de referencia generados por LLM son menos difíciles que los generados por humanos.
La creación de puntos de referencia a través de LLM tiene la limitación de que puede reducir la dificultad de los puntos de referencia en comparación con los métodos de crowdsourcing existentes.
Plantea la necesidad de considerar cuidadosamente los métodos de generación de puntos de referencia utilizando LLM.
👍