Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Por qué detenerse en las palabras? Descubriendo el panorama general mediante el OCR a nivel de línea

Created by
  • Haebom

Autor

Shashank Vempati, Nishit Anand, Gaurav Talebailkar, Arpan Garai, Chetan Arora

Describir

Este documento propone una transición del OCR a nivel de palabra al OCR a nivel de línea para superar las limitaciones del OCR a nivel de carácter convencional . El OCR a nivel de carácter convencional es propenso a errores durante la segmentación de caracteres y ha limitado la utilización de modelos de lenguaje. El OCR a nivel de palabra aborda estos problemas, pero también sufre del potencial de errores durante la segmentación de palabras. Por lo tanto, este documento propone el OCR a nivel de línea, que supera las limitaciones del OCR a nivel de palabra y evita errores de detección de palabras al tiempo que proporciona un contexto más amplio para las oraciones, mejorando así la usabilidad de los modelos de lenguaje. Además, presentamos un nuevo conjunto de datos (251 imágenes de páginas en inglés) para el OCR a nivel de línea. Los resultados experimentales demuestran que la técnica propuesta mejora la precisión en un 5,4% y la eficiencia en cuatro veces en comparación con el OCR a nivel de palabra convencional.

Takeaways, Limitations

Takeaways :
Propuesta de una técnica de OCR a nivel de línea que supera las limitaciones del OCR a nivel de palabra y mejora la precisión y la eficiencia.
Se publica un nuevo conjunto de datos para OCR a nivel de línea.
Se verificó experimentalmente una mejora en la precisión (5,4%) y la eficiencia (mejora de 4x).
Sugiere la posibilidad de futuras mejoras en el rendimiento a medida que se desarrollen modelos de lenguaje a gran escala.
Limitations :
Debido a la falta de conjuntos de datos públicos para OCR a nivel de línea, tuvimos que crear nuestro propio conjunto de datos.
Actualmente, solo está disponible el conjunto de datos en inglés. Es necesario ampliarlo a otros idiomas.
👍