본 논문은 이미지 내 텍스트를 인식하는 기술인 장면 텍스트 인식(Scene Text Recognition) 분야에서, 특히 인도 언어에 대한 연구의 격차를 해결하기 위해 Bharat Scene Text Dataset (BSTD)를 소개합니다. 이 데이터셋은 11개의 인도 언어와 영어를 포함하는 10만 개 이상의 단어로 구성되어 있으며, 인도 전역에서 촬영된 6,500개 이상의 장면 이미지에서 추출되었습니다. BSTD는 장면 텍스트 감지, 스크립트 식별, 잘린 단어 인식, 종단 간 장면 텍스트 인식 등 다양한 작업을 지원하며, 기존 영어 기반 모델을 인도 언어에 맞게 조정하여 평가했습니다. 이 연구는 인도 언어 장면 텍스트 인식 분야의 발전을 위한 중요한 발걸음이 될 것입니다.