Sign In

AfroBench: How Good are Large Language Models on African Languages?

Created by
  • Haebom
Category
Empty

저자

Jessica Ojo, Odunayo Ogundepo, Akintunde Oladipo, Kelechi Ogueji, Jimmy Lin, Pontus Stenetorp, David Ifeoluwa Adelani

개요

AfroBench는 64개의 아프리카 언어, 15개의 과제, 22개의 데이터셋을 사용하여 대규모 언어 모델(LLM)의 성능을 평가하는 다중 과제 벤치마크입니다. 기존의 대규모 다국어 평가에서 아프리카 언어의 대표성이 부족한 문제를 해결하기 위해 고품질 평가 데이터와 기존 아프리카 언어 데이터셋의 발견 가능성 제한을 극복하고자 개발되었습니다. 자연어 이해, 텍스트 생성, 지식 및 질문 응답, 수학적 추론 등 다양한 과제를 포함하며, 프롬프팅 기반 LLM과 BERT 및 T5 스타일의 미세 조정 기반 모델의 성능을 비교 분석했습니다. 결과는 영어와 같은 고자원 언어와 아프리카 언어 간의 성능 차이가 상당하며, 이는 단일 언어 데이터 자원의 가용성에 따라 달라짐을 보여줍니다. 현재 LLM의 아프리카 언어 성능 개선이 필요함을 시사합니다.

시사점, 한계점

시사점:
아프리카 언어에 대한 LLM 성능 평가를 위한 종합적인 벤치마크 AfroBench 제공.
고자원 언어와 저자원 언어 간의 LLM 성능 차이를 명확히 제시.
아프리카 언어 LLM 개발을 위한 추가적인 노력 필요성 강조.
단일 언어 데이터 자원의 중요성을 확인.
한계점:
아프리카 언어 데이터셋의 가용성 및 품질에 대한 의존성.
AfroBench에 포함된 언어 및 과제의 포괄성에 대한 추가적인 연구 필요.
벤치마크의 지속적인 업데이트 및 확장 필요.
👍