Bài báo này so sánh và phân tích 25 mô hình mạng nơ-ron được huấn luyện trước, được sử dụng rộng rãi trong thiết kế thuốc hóa học và phân tử nhỏ, sử dụng 25 tập dữ liệu. Các mô hình với nhiều phương thức, kiến trúc và chiến lược huấn luyện trước khác nhau đã được đánh giá trong một khuôn khổ so sánh công bằng. Sử dụng mô hình kiểm định thống kê Bayesian phân cấp, phân tích cho thấy hầu hết các mô hình mạng nơ-ron đều không cải thiện đáng kể hiệu suất so với mô hình dấu vân tay phân tử ECFP cơ sở. Chỉ có mô hình CLAMP, một mô hình dựa trên dấu vân tay phân tử, cho thấy sự cải thiện hiệu suất đáng kể về mặt thống kê so với các mô hình khác. Những kết quả này làm dấy lên lo ngại về tính nghiêm ngặt của các nghiên cứu trước đây, và chúng tôi sẽ thảo luận về nguyên nhân, giải pháp và khuyến nghị thực tế của chúng.