Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs

Created by
  • Haebom
Category
Empty

저자

Ali Faraz, Akash, Shaharukh Khan, Raja Kolla, Akshat Patidar, Suranjan Goswami, Abhinav Ravi, Chandra Khatri, Shubham Agarwal

개요

본 논문은 시각-언어 모델(VLM)의 문화적 다양성과 다중 언어 환경에서의 성능 평가를 위해 인도 아대륙을 중심으로 한 대규모 벤치마크인 IndicVisionBench를 소개한다. 이 벤치마크는 영어와 10개의 인도 언어를 포함하며, 광학 문자 인식(OCR), 다중 모달 기계 번역(MMT), 시각 질의 응답(VQA) 등 3가지 멀티모달 태스크를 다룬다. 총 5,000개 이상의 이미지와 37,000개 이상의 QA 쌍을 포함하며, 13개의 문화적 주제를 다룬다. 또한 10개 인도 언어 간의 병렬 코퍼스를 제공하여 VLM의 문화적, 언어적 편향 분석을 위한 독특한 자원을 제공한다. 8개의 다양한 모델을 평가하여 문화적으로 다양한 환경에서의 성능 격차를 확인하고, 더욱 포괄적인 멀티모달 연구를 위한 평가 프레임워크를 제시한다.

시사점, 한계점

시사점:
VLM의 문화적 다양성과 다중 언어 환경에서의 성능을 평가하기 위한 새로운 벤치마크 제공.
인도 아대륙을 중심으로 한 대규모 데이터셋 구축 및 공개를 통한 연구 활성화 기여.
다양한 모델 평가를 통해 현재 VLM의 한계를 명확히 제시.
문화적, 언어적 편향 분석을 위한 독특한 자원 제공.
더욱 포괄적인 멀티모달 연구를 위한 기반 마련.
한계점:
벤치마크가 인도 아대륙에 국한되어 다른 지역의 문화적 다양성을 충분히 반영하지 못할 수 있음.
다루는 언어 및 문화적 주제의 수가 제한적일 수 있음.
평가 모델의 성능 향상에 따른 벤치마크의 업데이트 필요.
👍