Bài báo này trình bày một phương pháp phân loại văn bản hiệu quả để xử lý khối lượng tài liệu khoa học ngày càng tăng. Chúng tôi tinh chỉnh các mô hình ngôn ngữ được đào tạo trước (PLM) như BERT, SciBERT, BioBERT và BlueBERT trên tập dữ liệu Web of Science (WoS-46985) và áp dụng chúng vào phân loại văn bản khoa học. Chúng tôi mở rộng tập dữ liệu bằng cách thêm 1.000 bài báo cho mỗi danh mục, khớp với các danh mục chính của WoS-46985, bằng cách thực hiện bảy truy vấn mục tiêu trên cơ sở dữ liệu WoS. Chúng tôi sử dụng PLM để dự đoán nhãn cho dữ liệu chưa được gắn nhãn và kết hợp các dự đoán bằng chiến lược bỏ phiếu cứng để cải thiện độ chính xác và độ tin cậy. Tinh chỉnh trên tập dữ liệu mở rộng bằng cách sử dụng tốc độ học động và dừng sớm cải thiện đáng kể độ chính xác phân loại, đặc biệt là trong các lĩnh vực chuyên biệt. Chúng tôi chứng minh rằng các mô hình chuyên biệt cho từng lĩnh vực như SciBERT và BioBERT luôn vượt trội hơn các mô hình đa năng như BERT. Những kết quả này làm nổi bật hiệu quả của việc tăng cường tập dữ liệu, dự đoán nhãn dựa trên suy luận, bỏ phiếu cứng và các kỹ thuật tinh chỉnh trong việc tạo ra một giải pháp mạnh mẽ và có khả năng mở rộng cho phân loại văn bản học thuật tự động.