MoVoC (Morpheme-aware Subword Vocabulary Construction) est un tokenizer, MoVoC-Tok, proposé pour pallier les limitations des méthodes de tokenisation de sous-mots qui ne parviennent pas à maintenir les limites des morphèmes dans les langues à faibles ressources et à morphèmes complexes écrites en écriture Geez. MoVoC-Tok est une méthode de segmentation hybride qui intègre une analyse morphologique basée sur l'apprentissage supervisé dans les vocabulaires de sous-mots. Elle combine la tokenisation basée sur les morphèmes avec les tokens Byte Pair Encoding (BPE) pour maintenir l'intégrité des morphèmes tout en préservant le sens lexical. Elle fournit des données morphémiques annotées manuellement pour quatre langues d'écriture Geez et des vocabulaires sensibles aux morphèmes pour deux langues. Bien qu'elle n'améliore pas significativement la qualité de la traduction automatique, elle améliore systématiquement les indicateurs intrinsèques tels que MorphoScore et Boundary Precision, soulignant ainsi l'intérêt de la segmentation sensible aux morphèmes. L'ensemble de données et le tokenizer fournis peuvent être utilisés dans la recherche sur les langues à faibles ressources et riches en morphèmes.