Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phân loại văn bản khoa học tiên tiến: Mô hình tinh chỉnh với việc mở rộng tập dữ liệu và bỏ phiếu cứng

Created by
  • Haebom

Tác giả

Zhyar Rzgar K Rostam, G abor Kert esz

Phác thảo

Bài báo này trình bày một phương pháp phân loại văn bản hiệu quả để xử lý khối lượng tài liệu khoa học ngày càng tăng. Chúng tôi tinh chỉnh các mô hình ngôn ngữ được đào tạo trước (PLM) như BERT, SciBERT, BioBERT và BlueBERT trên tập dữ liệu Web of Science (WoS-46985) và áp dụng chúng vào phân loại văn bản khoa học. Chúng tôi mở rộng tập dữ liệu bằng cách thêm 1.000 bài báo cho mỗi danh mục, khớp với các danh mục chính của WoS-46985, bằng cách thực hiện bảy truy vấn mục tiêu trên cơ sở dữ liệu WoS. Chúng tôi sử dụng PLM để dự đoán nhãn cho dữ liệu chưa được gắn nhãn và kết hợp các dự đoán bằng chiến lược bỏ phiếu cứng để cải thiện độ chính xác và độ tin cậy. Tinh chỉnh trên tập dữ liệu mở rộng bằng cách sử dụng tốc độ học động và dừng sớm cải thiện đáng kể độ chính xác phân loại, đặc biệt là trong các lĩnh vực chuyên biệt. Chúng tôi chứng minh rằng các mô hình chuyên biệt cho từng lĩnh vực như SciBERT và BioBERT luôn vượt trội hơn các mô hình đa năng như BERT. Những kết quả này làm nổi bật hiệu quả của việc tăng cường tập dữ liệu, dự đoán nhãn dựa trên suy luận, bỏ phiếu cứng và các kỹ thuật tinh chỉnh trong việc tạo ra một giải pháp mạnh mẽ và có khả năng mở rộng cho phân loại văn bản học thuật tự động.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc kết hợp tăng cường tập dữ liệu, dự đoán nhãn dựa trên suy luận, bỏ phiếu cứng và các kỹ thuật tinh chỉnh có thể cải thiện độ chính xác và hiệu quả của phân loại tài liệu khoa học.
Chúng tôi xác nhận rằng PLM theo lĩnh vực cụ thể (SciBERT, BioBERT) phù hợp hơn để phân loại tài liệu khoa học so với PLM đa năng (BERT).
Phương pháp luận của nghiên cứu này cung cấp một khuôn khổ chung có thể áp dụng cho việc phân loại văn bản trong các lĩnh vực khác.
Limitations:
Vì tập dữ liệu được xây dựng dựa trên cơ sở dữ liệu WoS nên cần nghiên cứu thêm để xác định khả năng khái quát hóa của nó đối với các cơ sở dữ liệu hoặc tập dữ liệu khác.
Cần phải phân tích hiệu suất so sánh bằng cách áp dụng các phương pháp tổng hợp khác ngoài chiến lược bỏ phiếu cứng đã sử dụng.
Việc cải thiện hiệu suất cho các miền cụ thể có thể phụ thuộc vào kích thước và chất lượng của tập dữ liệu, do đó cần có thêm các thử nghiệm trên các tập dữ liệu có kích thước và chất lượng khác nhau.
👍