Sign In

BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

Created by
  • Haebom
Category
Empty

저자

Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan

BhashaBench V1: India-Centric LLM Benchmark

개요

본 논문은 대규모 언어 모델(LLM) 평가의 필요성을 강조하며, 인도 중심적 맥락에 초점을 맞춘 새로운 벤치마크인 BhashaBench V1을 소개합니다. 기존의 벤치마크가 서구 중심적이고 특정 도메인에 국한되지 않는다는 점을 지적하며, BhashaBench V1은 인도 지식 체계에 특화된 최초의 도메인별, 다중 작업, 이중 언어 벤치마크입니다. 74,166개의 세심하게 큐레이션된 질문-답변 쌍(영어 52,494개, 힌디어 21,672개)을 포함하며, 농업, 법률, 금융, 아유르베다 등 4개의 주요 도메인과 90개 이상의 하위 도메인, 500개 이상의 주제를 다룹니다. 29개 이상의 LLM 평가 결과, 특히 저자원 도메인에서 큰 성능 격차가 나타났습니다. 예를 들어, GPT-4o는 법률 분야에서 76.49%의 정확도를 보였지만 아유르베다 분야에서는 59.74%에 그쳤습니다. 모든 도메인에서 영어 콘텐츠에 비해 힌디어 콘텐츠에 대한 모델의 성능이 일관적으로 낮았습니다. BhashaBench V1은 인도 내 다양한 지식 도메인에서 대규모 언어 모델을 평가하기 위한 포괄적인 데이터 세트를 제공하며, 도메인별 지식과 이중 언어 이해를 통합하는 모델의 능력을 평가합니다. 모든 코드, 벤치마크 및 리소스는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
인도 특화 벤치마크 구축을 통해 LLM 평가의 지역화된 필요성을 충족.
다양한 도메인과 언어(영어, 힌디어)를 포함하여 LLM의 다중 작업 능력 및 이중 언어 이해도 평가 가능.
LLM의 도메인별 성능 차이 및 언어별 성능 격차를 식별하여 개선 방향 제시.
연구 커뮤니티에 공개적으로 접근 가능한 리소스를 제공하여 후속 연구를 지원.
한계점:
인도 내 다른 언어 및 도메인에 대한 확장 필요.
벤치마크의 정확도와 품질 유지를 위한 지속적인 큐레이션 필요.
모델 성능 향상을 위한 추가적인 데이터셋과 평가 지표 개발 필요.
제한된 언어(영어, 힌디어) 지원.
👍