Bharat Scene Text: A Novel Comprehensive Dataset and Benchmark for Indian Language Scene Text Understanding

Created by

Haebom

저자

Anik De, Abhirama Subramanyam Penamakuri, Rajeev Yadav, Aditya Rathore, Harshiv Shah, Devesh Sharma, Sagar Agarwal, Pravin Kumar, Anand Mishra

💡 개요

영어권의 장면 텍스트 인식 기술은 상당한 발전을 이루었으나, 인도 언어의 경우 스크립트 다양성, 비표준 글꼴, 다양한 필기 스타일 등으로 인해 여전히 어려운 과제로 남아있습니다. 이에 본 논문은 11개 인도 언어와 영어를 포함한 10만 개 이상의 단어와 6,500개 이상의 장면 이미지를 담은 대규모 Bharat Scene Text Dataset (BSTD)을 새롭게 제안합니다. 이 데이터셋은 장면 텍스트 탐지, 스크립트 식별, 단어 인식, 종단 간 장면 텍스트 인식 등 다양한 태스크를 지원하며, 기존 영어 모델을 인도 언어에 맞게 파인튜닝한 결과는 인도어 장면 텍스트 인식의 도전 과제와 기회를 보여줍니다.

🔑 시사점 및 한계

•

인도 언어 장면 텍스트 인식을 위한 최초의 포괄적인 대규모 공개 데이터셋 및 벤치마크를 제공하여 관련 연구를 촉진합니다.

•

다양한 인도 언어와 지역적 특성을 반영하여 영어 외 언어의 장면 텍스트 인식 연구의 중요한 기반을 마련합니다.

•

기존 영어 모델을 인도 언어에 적용하는 데에도 여전히 상당한 성능 격차가 존재함을 시사하며, 인도 언어 고유의 특성을 고려한 새로운 모델 개발의 필요성을 제기합니다.

•

데이터셋은 방대하지만, 실제 환경의 다양한 조명, 각도, 훼손 등을 모두 포괄하기에는 한계가 있을 수 있으며, 향후 더 다양한 현실 세계의 장면 텍스트 데이터를 추가하고, 인도 언어에 특화된 고성능 모델 개발이 필요합니다.

PDF 보기

Made with Slashpage