본 연구는 저자원 아프리카 언어에 대한 기계 번역(MT) 품질 평가의 어려움을 해결하기 위해, 14개의 아프리카 언어 쌍을 포함하는 대규모의 인간 주석이 달린 MT 평가 데이터 세트(SSA-MTE)를 소개합니다. SSA-MTE는 뉴스 도메인의 73,000개 이상의 문장 수준 주석을 포함하며, 이를 기반으로 향상된 참조 기반 및 참조 없는 평가 지표인 SSA-COMET 및 SSA-COMET-QE를 개발합니다. 또한 GPT-4o, Claude-3.7, Gemini 2.5 Pro와 같은 최첨단 LLM을 사용하여 프롬프트 기반 접근 방식을 벤치마킹합니다. 실험 결과, SSA-COMET 모델은 AfriCOMET보다 훨씬 우수한 성능을 보이며, 특히 Twi, Luo, Yoruba와 같은 저자원 언어에서 Gemini 2.5 Pro와 경쟁할 만한 결과를 보여줍니다. 연구에 사용된 모든 리소스는 오픈 라이선스로 공개됩니다.