Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mặt nạ & Ghép hình: Học cách nhận biết toán viết tay với sự chú ý tự giám sát

Created by
  • Haebom

Tác giả

Shree Mitra, Ritabrata Chakraborty, Nilkanta Sahu

Phác thảo

Bài báo này trình bày một khuôn khổ học tự giám sát (SSL) mới cho nhận dạng biểu thức toán học viết tay (HMER). Được thiết kế để loại bỏ nhu cầu về dữ liệu được gán nhãn thông thường, tốn kém, khuôn khổ này huấn luyện trước bộ mã hóa hình ảnh bằng cách kết hợp các tổn thất tương phản toàn cục và cục bộ. Điều này cho phép học cả biểu diễn toàn cục và chi tiết. Hơn nữa, chúng tôi đề xuất một mạng lưới chú ý tự giám sát mới, được huấn luyện bằng chiến lược che dấu không gian lũy tiến. Cơ chế chú ý này tập trung vào các vùng có ý nghĩa, chẳng hạn như toán tử, số mũ và ký hiệu toán học lồng nhau, mà không cần bất kỳ sự giám sát nào. Chương trình che dấu lũy tiến nâng cao khả năng hiểu cấu trúc bằng cách làm cho mạng lưới ngày càng mạnh mẽ hơn trước thông tin thị giác bị thiếu hoặc bị che khuất. Toàn bộ quy trình bao gồm (1) huấn luyện trước bộ mã hóa tự giám sát, (2) huấn luyện chú ý tự giám sát, và (3) tinh chỉnh có giám sát bằng bộ giải mã Transformer (để tạo chuỗi LaTeX). Các thử nghiệm mở rộng trên chuẩn CROHME chứng minh tính hiệu quả của cơ chế chú ý lũy tiến, vượt trội hơn các mô hình SSL hiện có và mô hình cơ sở giám sát hoàn toàn.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ SSL mới giúp đào tạo các mô hình nhận dạng biểu thức toán học viết tay hiệu suất cao mà không cần dữ liệu có nhãn đắt tiền.
Cải thiện sự hiểu biết về cấu trúc của các biểu thức toán học thông qua mạng lưới chú ý tự giám sát sử dụng các chiến lược che giấu không gian tiến bộ.
ĐạT hiệu suất vượt trội hơn SSL hiện tại và các mô hình được giám sát hoàn toàn trên chuẩn CROHME.
Góp phần giải quyết vấn đề thiếu hụt dữ liệu trong lĩnh vực HMER thông qua phương pháp học tự giám sát hiệu quả.
Limitations:
Cần nghiên cứu thêm để đánh giá hiệu suất tổng quát của phương pháp đề xuất. Cần đánh giá hiệu suất thêm cho các công thức toán học có nhiều phong cách và độ phức tạp khác nhau.
Có khả năng bị tấn công bởi một số loại ký hiệu toán học hoặc chữ viết tay.
Cần nghiên cứu thêm để xác định các thông số tối ưu cho chiến lược che chắn tiến bộ.
Thiếu đánh giá hiệu suất và phân tích so sánh trên các tập dữ liệu quy mô lớn.
👍