JEEM: Vision-Language Understanding in Four Arabic Dialects
Created by
Haebom
저자
Karima Kadaoui, Hanin Atwany, Hamdan Al-Ali, Abdelrahman Mohamed, Ali Mekky, Sergei Tilga, Natalia Fedorova, Ekaterina Artemova, Hanan Aldarmaki, Yova Kementchedjhieva
개요
JEEM은 요르단, 아랍에미리트, 이집트, 모로코 등 4개 아랍어 사용 국가의 문화적 다양성을 반영한 이미지 자막 생성 및 시각적 질문 응답 과제를 포함하는 시각-언어 모델(VLM) 평가 벤치마크입니다. 5개의 주요 오픈소스 아랍어 VLM과 GPT-4V를 평가한 결과, 아랍어 VLM은 시각적 이해와 방언 특징적 생성 모두에서 성능이 저조했으며, GPT-4V가 가장 우수했지만 방언별 언어 능력과 시각적 이해 능력에는 차이가 있음을 보였습니다. 이는 더 포괄적인 모델과 문화적으로 다양한 평가 방식의 필요성을 강조합니다.