本論文は、化学および小分子薬物設計の分野で広く使用されている25の事前訓練されたニューラルネットワークモデルを25のデータセットを使用して比較分析した研究です。さまざまなモダリティ、アーキテクチャ、および事前訓練戦略を持つモデルを公平な比較フレームワークの下で評価し、階層的ベイジアン統計的検定モデルを使用して分析したところ、ほぼすべてのニューラルネットワークモデルが基準モデルであるECFP分子指紋よりも有意な性能向上を示さなかった。分子指紋ベースのモデルであるCLAMPモデルのみが、他のモデルよりも統計的に有意に優れたパフォーマンスを示しました。これらの結果は、既存の研究の評価の厳格性に関する懸念を提起し、その原因と解決策、実質的な勧告を議論します。