MoVoC (Construcción de Vocabulario de Subpalabras con Morfema) es un tokenizador, MoVoC-Tok, propuesto para abordar las limitaciones de los métodos de tokenización de subpalabras que no logran mantener los límites de morfemas en idiomas de bajos recursos y morfemas complejos escritos en el alfabeto Geez. MoVoC-Tok es un método de segmentación híbrido que integra el análisis morfológico basado en aprendizaje supervisado en vocabularios de subpalabras. Combina la tokenización basada en morfemas con tokens de Codificación de Pares de Bytes (BPE) para mantener la integridad de los morfemas a la vez que preserva el significado léxico. Proporciona datos de morfemas anotados manualmente para cuatro idiomas con alfabeto Geez y vocabularios con morfemas para dos idiomas. Si bien no mejora significativamente la calidad de la traducción automática, mejora consistentemente métricas intrínsecas como MorphoScore y Precisión de Límites, lo que resalta el valor de la segmentación con morfemas. El conjunto de datos y el tokenizador proporcionados se pueden utilizar en investigaciones sobre idiomas con pocos recursos y ricos en morfemas.