Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MoVoC: Construcción de subpalabras con morfología para lenguajes Geez Script

Created by
  • Haebom

Autor

Hailay Kidu Teklehaymanot, Dren Fazlija, Wolfgang Nejdl

Describir

MoVoC (Construcción de Vocabulario de Subpalabras con Morfema) es un tokenizador, MoVoC-Tok, propuesto para abordar las limitaciones de los métodos de tokenización de subpalabras que no logran mantener los límites de morfemas en idiomas de bajos recursos y morfemas complejos escritos en el alfabeto Geez. MoVoC-Tok es un método de segmentación híbrido que integra el análisis morfológico basado en aprendizaje supervisado en vocabularios de subpalabras. Combina la tokenización basada en morfemas con tokens de Codificación de Pares de Bytes (BPE) para mantener la integridad de los morfemas a la vez que preserva el significado léxico. Proporciona datos de morfemas anotados manualmente para cuatro idiomas con alfabeto Geez y vocabularios con morfemas para dos idiomas. Si bien no mejora significativamente la calidad de la traducción automática, mejora consistentemente métricas intrínsecas como MorphoScore y Precisión de Límites, lo que resalta el valor de la segmentación con morfemas. El conjunto de datos y el tokenizador proporcionados se pueden utilizar en investigaciones sobre idiomas con pocos recursos y ricos en morfemas.

Takeaways, Limitations

Takeaways:
Presentamos MoVoC-Tok, un tokenizador morfológicamente consciente para lenguajes morfológicamente complejos y de bajos recursos.
Lograr integridad morfológica y significado léxico simultáneamente a través de un método de segmentación híbrido.
Publicación de conjuntos de datos morfológicos anotados manualmente para cuatro idiomas con escritura Geez.
Observamos mejoras en el rendimiento en métricas intrínsecas como MorphoScore y Boundary Precision, lo que demuestra la importancia de la segmentación consciente de la morfología.
Apoyar la investigación lingüística con bajos recursos mediante conjuntos de datos y códigos abiertos.
Limitations:
No tuvo ningún efecto significativo en la mejora de la calidad de la traducción automática.
👍