Bài báo này trình bày một khuôn khổ học tự giám sát (SSL) mới cho nhận dạng biểu thức toán học viết tay (HMER). Được thiết kế để loại bỏ nhu cầu về dữ liệu được gán nhãn thông thường, tốn kém, khuôn khổ này huấn luyện trước bộ mã hóa hình ảnh bằng cách kết hợp các tổn thất tương phản toàn cục và cục bộ. Điều này cho phép học cả biểu diễn toàn cục và chi tiết. Hơn nữa, chúng tôi đề xuất một mạng lưới chú ý tự giám sát mới, được huấn luyện bằng chiến lược che dấu không gian lũy tiến. Cơ chế chú ý này tập trung vào các vùng có ý nghĩa, chẳng hạn như toán tử, số mũ và ký hiệu toán học lồng nhau, mà không cần bất kỳ sự giám sát nào. Chương trình che dấu lũy tiến nâng cao khả năng hiểu cấu trúc bằng cách làm cho mạng lưới ngày càng mạnh mẽ hơn trước thông tin thị giác bị thiếu hoặc bị che khuất. Toàn bộ quy trình bao gồm (1) huấn luyện trước bộ mã hóa tự giám sát, (2) huấn luyện chú ý tự giám sát, và (3) tinh chỉnh có giám sát bằng bộ giải mã Transformer (để tạo chuỗi LaTeX). Các thử nghiệm mở rộng trên chuẩn CROHME chứng minh tính hiệu quả của cơ chế chú ý lũy tiến, vượt trội hơn các mô hình SSL hiện có và mô hình cơ sở giám sát hoàn toàn.