Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

JEEM: Vision-Language Understanding in Four Arabic Dialects

Created by
  • Haebom

저자

Karima Kadaoui, Hanin Atwany, Hamdan Al-Ali, Abdelrahman Mohamed, Ali Mekky, Sergei Tilga, Natalia Fedorova, Ekaterina Artemova, Hanan Aldarmaki, Yova Kementchedjhieva

개요

JEEM은 요르단, 아랍에미리트, 이집트, 모로코 등 4개 아랍어 사용 국가의 문화적 다양성을 반영한 이미지 자막 생성 및 시각적 질문 응답 과제를 포함하는 시각-언어 모델(VLM) 평가 벤치마크입니다. 5개의 주요 오픈소스 아랍어 VLM과 GPT-4V를 평가한 결과, 아랍어 VLM은 시각적 이해와 방언 특징적 생성 모두에서 성능이 저조했으며, GPT-4V가 가장 우수했지만 방언별 언어 능력과 시각적 이해 능력에는 차이가 있음을 보였습니다. 이는 더 포괄적인 모델과 문화적으로 다양한 평가 방식의 필요성을 강조합니다.

시사점, 한계점

시사점:
문화적 다양성을 고려한 VLM 평가의 중요성 부각
아랍어 VLM의 성능 개선 필요성 제기
다양한 방언에 대한 VLM의 언어 능력 개선 필요성 제기
더욱 포괄적인 VLM 개발 필요성 강조
한계점:
평가에 사용된 VLM의 종류가 제한적일 수 있음
JEEM 벤치마크의 범용성에 대한 추가 연구 필요
GPT-4V의 성능이 우수하나, 여전히 시각적 이해 및 방언별 언어 능력에 한계가 존재
👍