Para abordar los desafíos de la evaluación de la calidad de la traducción automática (TA) en lenguas africanas con recursos limitados, este estudio presenta un conjunto de datos de evaluación de TA anotado por humanos a gran escala (SSA-MTE) que abarca 14 pares de lenguas africanas. SSA-MTE contiene más de 73.000 anotaciones a nivel de oración del ámbito de las noticias, y desarrollamos métricas de evaluación mejoradas, basadas en referencias y sin referencias, SSA-COMET y SSA-COMET-QE, basadas en este conjunto de datos. También evaluamos enfoques basados en indicaciones utilizando LLM de vanguardia como GPT-4o, Claude-3.7 y Gemini 2.5 Pro. Los resultados experimentales muestran que el modelo SSA-COMET supera significativamente a AfriCOMET y es competitivo con Gemini 2.5 Pro, especialmente para lenguas con recursos limitados como el twi, el luo y el yoruba. Todos los recursos utilizados en este estudio se publican bajo una licencia abierta.