Cet article compare et analyse 25 modèles de réseaux neuronaux pré-entraînés, largement utilisés dans la conception de médicaments chimiques et à base de petites molécules, à partir de 25 jeux de données. Des modèles présentant diverses modalités, architectures et stratégies de pré-entraînés ont été évalués dans un cadre comparatif équitable. À l'aide d'un modèle de test statistique bayésien hiérarchique, l'analyse a révélé que la quasi-totalité des modèles de réseaux neuronaux n'ont pas amélioré significativement leurs performances par rapport au modèle d'empreinte moléculaire ECFP de base. Seul le modèle CLAMP, basé sur l'empreinte moléculaire, a montré des améliorations de performances statistiquement significatives par rapport aux autres modèles. Ces résultats soulèvent des inquiétudes quant à la rigueur des études précédentes, et nous en analysons les causes, les solutions et les recommandations pratiques.