Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Dynaword: De conjuntos de datos de una sola toma a conjuntos de datos de desarrollo continuo

작성자
  • Haebom

Autor

Kenneth Enevoldsen, Kristian N{\o}rgaard Jensen, Jan Kostkan, Balazs Szab o, Arton Kardos, Kirten Vad, Johan Heinsen, Andrea Blasi Nu nez , Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per M{\o}ldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo

Describir

Este documento presenta el enfoque Dynaword y el enfoque Dynaword danés para abordar tres desafíos clave en el desarrollo y la utilización de conjuntos de datos a gran escala en el campo del procesamiento del lenguaje natural: 1) las licencias ambiguas restringen el uso, el intercambio y las obras derivadas; 2) las distribuciones estáticas de los conjuntos de datos dificultan las contribuciones continuas de la comunidad y el mantenimiento a largo plazo; y 3) los procesos de control de calidad se limitan a los equipos de publicación. Dynaword es un marco para crear conjuntos de datos abiertos a gran escala que pueden actualizarse continuamente mediante la colaboración de la comunidad, y Dynaword danés es una implementación concreta que valida este enfoque y demuestra su potencial. Dynaword danés contiene más de cuatro veces más tokens que los conjuntos de datos existentes, tiene una licencia completamente abierta y ha recibido diversas contribuciones de la industria y la investigación. También establece un marco sostenible para las contribuciones continuas de la comunidad y la evolución de los conjuntos de datos, incluyendo pruebas ligeras para garantizar el formato, la calidad y la documentación de los datos.

Takeaways, Limitations

Takeaways:
Se presenta un marco para crear conjuntos de datos abiertos a gran escala que se actualizan continuamente en función de las contribuciones de la comunidad.
Validación de la viabilidad y utilidad del enfoque Dynaword utilizando Dynaword danés.
Proporcionar un conjunto de datos abierto que sea significativamente más grande (más de cuatro veces los tokens) que los conjuntos de datos existentes.
Construcción de un sistema liviano de pruebas y documentación para la calidad y sostenibilidad de los datos.
Limitations:
Se necesita más investigación para explorar la escalabilidad del enfoque Dynaword y su aplicabilidad a varios idiomas y dominios.
Es necesario seguir reflexionando sobre mecanismos eficaces de gobernanza y participación de las contribuciones de la comunidad.
Es necesario verificar si las características de Dynaword danés se pueden aplicar a la construcción de conjuntos de datos en otros idiomas y dominios.
👍