본 논문은 화학 및 소분자 약물 설계 분야에서 널리 사용되는 25개의 사전 훈련된 신경망 모델을 25개의 데이터셋을 사용하여 비교 분석한 연구입니다. 다양한 모달리티, 아키텍처 및 사전 훈련 전략을 가진 모델들을 공정한 비교 프레임워크 하에서 평가하였으며, 계층적 베이지안 통계적 검정 모델을 사용하여 분석한 결과, 거의 모든 신경망 모델이 기준 모델인 ECFP 분자 지문보다 유의미한 성능 향상을 보이지 않았습니다. 분자 지문 기반 모델인 CLAMP 모델만이 다른 모델들보다 통계적으로 유의미하게 더 나은 성능을 보였습니다. 이러한 결과는 기존 연구들의 평가 엄격성에 대한 우려를 제기하며, 그 원인과 해결책, 실질적인 권고안을 논의합니다.