AfroBench는 64개의 아프리카 언어, 15개의 과제, 22개의 데이터셋을 사용하여 대규모 언어 모델(LLM)의 성능을 평가하는 다중 과제 벤치마크입니다. 기존의 대규모 다국어 평가에서 아프리카 언어의 대표성이 부족한 문제를 해결하기 위해 고품질 평가 데이터와 기존 아프리카 언어 데이터셋의 발견 가능성 제한을 극복하고자 개발되었습니다. 자연어 이해, 텍스트 생성, 지식 및 질문 응답, 수학적 추론 등 다양한 과제를 포함하며, 프롬프팅 기반 LLM과 BERT 및 T5 스타일의 미세 조정 기반 모델의 성능을 비교 분석했습니다. 결과는 영어와 같은 고자원 언어와 아프리카 언어 간의 성능 차이가 상당하며, 이는 단일 언어 데이터 자원의 가용성에 따라 달라짐을 보여줍니다. 현재 LLM의 아프리카 언어 성능 개선이 필요함을 시사합니다.