MoVoC (Morpheme-aware Subword Vocabulary Construction)은 Geez 문자로 쓰인 저자원, 형태소적으로 복잡한 언어에서 형태소 경계를 유지하지 못하는 하위 단어 토큰화 방식의 한계를 해결하기 위해 제안된 토크나이저 MoVoC-Tok이다. MoVoC-Tok은 감독 학습 기반 형태소 분석을 하위 단어 어휘에 통합하는 하이브리드 분할 방식으로, 형태소 기반 토큰과 Byte Pair Encoding (BPE) 토큰을 결합하여 형태소의 무결성을 유지하면서 어휘적 의미도 유지한다. 네 개의 Geez 문자 언어에 대한 수동 주석 형태소 데이터와 두 개 언어에 대한 형태소 인식 어휘를 제공하며, 자동 번역 품질에는 큰 향상을 가져오지 못했지만, MorphoScore 및 Boundary Precision과 같은 내재적 지표에서 일관된 개선을 보여 형태소 인식 분할의 가치를 강조한다. 제공된 데이터셋과 토크나이저는 저자원, 형태소가 풍부한 언어 연구에 활용될 수 있다.