Bài báo này tập trung vào sự tiến bộ của công nghệ số nhằm nâng cao sức khỏe, nhận thức và khả năng cảm nhận của con người trong lĩnh vực bệnh lý học tính toán. Chúng tôi trình bày một phương pháp mới để nâng cao khả năng phân tích hình ảnh mô bệnh học bằng cách sử dụng mô hình đa phương thức kết hợp Vision Transformer (ViT) và GPT-2. Mô hình được tinh chỉnh với bộ dữ liệu ARCH chuyên biệt chứa các chú thích hình ảnh dày đặc có nguồn gốc từ các nguồn lâm sàng và học thuật để nắm bắt sự phức tạp của hình ảnh bệnh lý, bao gồm hình thái mô, các biến thể nhuộm màu và các tình trạng bệnh lý. Phương pháp này tạo ra các chú thích chính xác và phù hợp với ngữ cảnh để nâng cao khả năng nhận thức của các chuyên gia y tế, cho phép phân loại, phân đoạn và phát hiện bệnh hiệu quả hơn. Phương pháp này cũng cải thiện độ chính xác của chẩn đoán bằng cách phát hiện các đặc điểm bệnh lý tinh vi. Phương pháp này chứng minh tiềm năng của công nghệ số trong việc nâng cao nhận thức của con người trong phân tích hình ảnh y tế và mở ra một bước tiến tới các kết quả y tế được cá nhân hóa và chính xác hơn.