Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tại sao chỉ dừng lại ở chữ viết? Khám phá bức tranh toàn cảnh thông qua công nghệ OCR cấp độ nét

Created by
  • Haebom

Tác giả

Shashank Vempati, Nishit Anand, Gaurav Talebailkar, Arpan Garai, Chetan Arora

Phác thảo

Bài báo này đề xuất một phương án chuyển đổi từ OCR cấp độ từ sang OCR cấp độ dòng để khắc phục những hạn chế của OCR cấp độ ký tự thông thường . OCR cấp độ ký tự thông thường dễ bị lỗi trong quá trình phân đoạn ký tự và đã hạn chế việc sử dụng các mô hình ngôn ngữ. OCR cấp độ từ giải quyết những vấn đề này, nhưng nó cũng có khả năng xảy ra lỗi trong quá trình phân đoạn từ. Do đó, bài báo này đề xuất OCR cấp độ dòng, khắc phục những hạn chế của OCR cấp độ từ và tránh lỗi phát hiện từ đồng thời cung cấp ngữ cảnh rộng hơn cho các câu, do đó nâng cao khả năng sử dụng của các mô hình ngôn ngữ. Hơn nữa, chúng tôi trình bày một tập dữ liệu mới (251 hình ảnh trang tiếng Anh) cho OCR cấp độ dòng. Kết quả thử nghiệm chứng minh rằng kỹ thuật được đề xuất cải thiện độ chính xác 5,4% và hiệu quả gấp bốn lần so với OCR cấp độ từ thông thường.

Takeaways, Limitations

Takeaways :
Đề Xuất một kỹ thuật OCR cấp độ dòng khắc phục được những hạn chế của OCR cấp độ từ và cải thiện độ chính xác cũng như hiệu quả.
Một bộ dữ liệu mới dành cho OCR cấp độ dòng đã được phát hành.
Đã đượC kiểm chứng thực nghiệm về độ chính xác được cải thiện (5,4%) và hiệu quả (cải thiện gấp 4 lần).
Đề Xuất khả năng cải thiện hiệu suất hơn nữa khi các mô hình ngôn ngữ quy mô lớn phát triển trong tương lai.
Limitations :
Do thiếu bộ dữ liệu công khai cho OCR cấp độ dòng, chúng tôi phải xây dựng bộ dữ liệu riêng.
Hiện tại, chỉ có bộ dữ liệu tiếng Anh. Cần mở rộng sang các ngôn ngữ khác.
👍