为了应对资源匮乏的非洲语言机器翻译 (MT) 质量评估挑战,本研究引入了一个涵盖 14 个非洲语言对的大规模人工注释 MT 评估数据集 (SSA-MTE)。SSA-MTE 包含来自新闻领域的超过 73,000 条句子级注释,我们基于该数据集开发了改进的基于参考和无参考的评估指标 SSA-COMET 和 SSA-COMET-QE。我们还使用 GPT-4o、Claude-3.7 和 Gemini 2.5 Pro 等最先进的 LLM 对基于提示的方法进行了基准测试。实验结果表明,SSA-COMET 模型的性能显著优于 AfriCOMET,并与 Gemini 2.5 Pro 相媲美,尤其对于特维语、卢奥语和约鲁巴语等资源匮乏的语言而言。本研究中使用的所有资源均在开放许可下发布。