Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MoVoC : Construction de sous-mots tenant compte de la morphologie pour les langages à écriture Geez

Created by
  • Haebom

Auteur

Hailay Kidu Teklehaymanot, Dren Fazlija, Wolfgang Nejdl

Contour

MoVoC (Morpheme-aware Subword Vocabulary Construction) est un tokenizer, MoVoC-Tok, proposé pour pallier les limitations des méthodes de tokenisation de sous-mots qui ne parviennent pas à maintenir les limites des morphèmes dans les langues à faibles ressources et à morphèmes complexes écrites en écriture Geez. MoVoC-Tok est une méthode de segmentation hybride qui intègre une analyse morphologique basée sur l'apprentissage supervisé dans les vocabulaires de sous-mots. Elle combine la tokenisation basée sur les morphèmes avec les tokens Byte Pair Encoding (BPE) pour maintenir l'intégrité des morphèmes tout en préservant le sens lexical. Elle fournit des données morphémiques annotées manuellement pour quatre langues d'écriture Geez et des vocabulaires sensibles aux morphèmes pour deux langues. Bien qu'elle n'améliore pas significativement la qualité de la traduction automatique, elle améliore systématiquement les indicateurs intrinsèques tels que MorphoScore et Boundary Precision, soulignant ainsi l'intérêt de la segmentation sensible aux morphèmes. L'ensemble de données et le tokenizer fournis peuvent être utilisés dans la recherche sur les langues à faibles ressources et riches en morphèmes.

Takeaways, Limitations

Takeaways:
Nous présentons MoVoC-Tok, un tokeniseur morphologiquement conscient pour les langues à faibles ressources et morphologiquement complexes.
Atteindre simultanément l'intégrité morphologique et le sens lexical grâce à une méthode de segmentation hybride.
Publication d'ensembles de données morphologiques annotés manuellement pour quatre langues d'écriture Geez.
Nous avons observé des améliorations de performances dans des mesures intrinsèques telles que MorphoScore et Boundary Precision, démontrant l’importance d’une segmentation morphologiquement consciente.
Soutenir la recherche linguistique à faibles ressources grâce à des ensembles de données et du code ouverts.
Limitations:
Cela n’a eu aucun effet significatif sur l’amélioration de la qualité de la traduction automatique.
👍