본 논문은 대규모 언어 모델(LLM) 평가의 필요성을 강조하며, 인도 중심적 맥락에 초점을 맞춘 새로운 벤치마크인 BhashaBench V1을 소개합니다. 기존의 벤치마크가 서구 중심적이고 특정 도메인에 국한되지 않는다는 점을 지적하며, BhashaBench V1은 인도 지식 체계에 특화된 최초의 도메인별, 다중 작업, 이중 언어 벤치마크입니다. 74,166개의 세심하게 큐레이션된 질문-답변 쌍(영어 52,494개, 힌디어 21,672개)을 포함하며, 농업, 법률, 금융, 아유르베다 등 4개의 주요 도메인과 90개 이상의 하위 도메인, 500개 이상의 주제를 다룹니다. 29개 이상의 LLM 평가 결과, 특히 저자원 도메인에서 큰 성능 격차가 나타났습니다. 예를 들어, GPT-4o는 법률 분야에서 76.49%의 정확도를 보였지만 아유르베다 분야에서는 59.74%에 그쳤습니다. 모든 도메인에서 영어 콘텐츠에 비해 힌디어 콘텐츠에 대한 모델의 성능이 일관적으로 낮았습니다. BhashaBench V1은 인도 내 다양한 지식 도메인에서 대규모 언어 모델을 평가하기 위한 포괄적인 데이터 세트를 제공하며, 도메인별 지식과 이중 언어 이해를 통합하는 모델의 능력을 평가합니다. 모든 코드, 벤치마크 및 리소스는 공개적으로 제공됩니다.