Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los desarrolladores de modelos de lenguaje deben informar la superposición de entrenamiento y prueba

Created by
  • Haebom

Autor

Andy K Zhang, Kevin Klyman, Yifan Mai, Yoav Levine, Yian Zhang, Rishi Bommasani, Percy Liang

Describir

Este artículo aborda el problema del solapamiento entre los datos de entrenamiento y prueba para mejorar la fiabilidad de la evaluación de modelos lingüísticos. Se señala la dificultad de medir dicho solapamiento, ya que la mayoría de los modelos lingüísticos actualmente solo divulgan los resultados de la evaluación, sin revelar los datos de entrenamiento. El equipo de investigación realizó una encuesta a 30 desarrolladores de modelos para analizar el estado de la divulgación de información relacionada con el solapamiento entre los datos de entrenamiento y prueba, y descubrió que solo 9 desarrolladores divulgan información relacionada. Además, se argumenta que los desarrolladores de modelos lingüísticos deberían divulgar las estadísticas de solapamiento entre los datos de entrenamiento y prueba al informar los resultados de la evaluación en conjuntos de pruebas públicos.

Takeaways, Limitations

Takeaways:
Destacamos la importancia de revelar información de superposición entre pruebas y entrenamiento para garantizar la confiabilidad de la evaluación del modelo de lenguaje.
Expone la falta de transparencia en la evaluación del modelo lingüístico actual.
La situación actual se presenta en detalle a través de los resultados de una encuesta a 30 desarrolladores de modelos.
Fomentar la participación voluntaria de los desarrolladores en la divulgación de información sobre superposición de pruebas y trenes.
Limitations:
Las bajas tasas de participación en las encuestas pueden limitar la generalización.
Faltan sugerencias metodológicas específicas para medir y revelar la superposición entre pruebas y trenes.
Dado que solo nos centramos en 30 desarrolladores de modelos, es difícil generalizar a todos los modelos de lenguaje.
👍