본 논문은 시각-언어 모델(VLM)의 문화적 다양성과 다중 언어 환경에서의 성능 평가를 위해 인도 아대륙을 중심으로 한 대규모 벤치마크인 IndicVisionBench를 소개한다. 이 벤치마크는 영어와 10개의 인도 언어를 포함하며, 광학 문자 인식(OCR), 다중 모달 기계 번역(MMT), 시각 질의 응답(VQA) 등 3가지 멀티모달 태스크를 다룬다. 총 5,000개 이상의 이미지와 37,000개 이상의 QA 쌍을 포함하며, 13개의 문화적 주제를 다룬다. 또한 10개 인도 언어 간의 병렬 코퍼스를 제공하여 VLM의 문화적, 언어적 편향 분석을 위한 독특한 자원을 제공한다. 8개의 다양한 모델을 평가하여 문화적으로 다양한 환경에서의 성능 격차를 확인하고, 더욱 포괄적인 멀티모달 연구를 위한 평가 프레임워크를 제시한다.