Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Bharat Scene Text: A Novel Comprehensive Dataset and Benchmark for Indian Language Scene Text Understanding

Created by
  • Haebom
Category
Empty

저자

Anik De, Abhirama Subramanyam Penamakuri, Rajeev Yadav, Aditya Rathore, Harshiv Shah, Devesh Sharma, Sagar Agarwal, Pravin Kumar, Anand Mishra

개요

본 논문은 이미지 내 텍스트를 인식하는 기술인 장면 텍스트 인식(Scene Text Recognition) 분야에서, 특히 인도 언어에 대한 연구의 격차를 해결하기 위해 Bharat Scene Text Dataset (BSTD)를 소개합니다. 이 데이터셋은 11개의 인도 언어와 영어를 포함하는 10만 개 이상의 단어로 구성되어 있으며, 인도 전역에서 촬영된 6,500개 이상의 장면 이미지에서 추출되었습니다. BSTD는 장면 텍스트 감지, 스크립트 식별, 잘린 단어 인식, 종단 간 장면 텍스트 인식 등 다양한 작업을 지원하며, 기존 영어 기반 모델을 인도 언어에 맞게 조정하여 평가했습니다. 이 연구는 인도 언어 장면 텍스트 인식 분야의 발전을 위한 중요한 발걸음이 될 것입니다.

시사점, 한계점

시사점:
인도 언어 장면 텍스트 인식을 위한 대규모 벤치마크 데이터셋 제공.
다양한 인도 언어와 영어 지원.
여러 장면 텍스트 인식 작업 지원 (감지, 식별, 인식 등).
기존 모델의 인도 언어 적용 가능성 및 문제점 제시.
연구 활성화를 위한 데이터 및 모델 오픈 소스 제공.
한계점:
논문 자체에서 구체적인 한계점 언급은 없음. (하지만, 인도 언어 특성상 나타날 수 있는 문제점들 - 다양한 스크립트, 폰트, 필기체, 데이터 부족 등 - 은 극복해야 할 과제로 제시됨)
👍