[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Two-Stage Pretraining for Molecular Property Prediction in the Wild

Created by
  • Haebom

作者

Kevin Tirta Wijaya, Minghao Guo, Michael Sun, Hans-Peter Seidel, Wojciech Matusik, Vahid Babaei

概要

本稿では、実験的に検証されたデータが不足している環境で、さまざまな分子特性を予測するための多目的事前学習分子モデルであるMoleVersを提案します。 MoleVersは2段階の事前学習戦略を使用します。最初のステップでは、マスクされた原子予測と極端なノイズ除去を介して非標識データから分子表現を学習します。 2番目のステップでは、密度汎関数理論や大規模言語モデルなどの計算方法から派生した補助特性予測を使用してこれらの表現を改善します。 22の小規模で実験的に検証されたデータセットの評価の結果、MoleVersは最先端のパフォーマンスを達成し、さまざまなサブ特性の一般化可能な分子表現を生成する2段階のフレームワークの効果を強調します。

Takeaways、Limitations

Takeaways:
限られた実験データだけで様々な分子特性予測を可能にする新しいモデルMoleVersの提示
二段階事前学習戦略による一般化性能に優れた分子表現学習可能性の証明
マスクされた原子予測と極端なノイズ除去による効果的な非標識学習戦略の提示
密度汎関数理論と大規模言語モデルを含む様々な計算方法を利用した補助特性予測の有効性の確認
22の実験データセットで最先端のパフォーマンスを達成。
Limitations:
使用された22個のデータセットの規模が小さく、大規模データセットに対する一般化性能検証が必要。
新しい分岐エンコーダアーキテクチャと動的雑音尺度サンプリングの一般性と他の分野の適用性に関するさらなる研究の必要性
計算コストの高い密度汎関数理論などの活用による計算資源消費問題
実験データが足りない状況に特化し、十分な実験データが存在する場合、既存モデルに比べ性能優位不確実。
👍