Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The Ever-Evolving Science Exam

Created by
  • Haebom

作者

Junying Wang, Zicheng Zhang, Yijin Guo, Farong Wen, Ye Shen, Yingji Liang, Yalun Wu, Wenzhe Li, Chunyi Li, Zijian Chen, Qi Jia, Guangtao Zhai

概要

本論文では、ファンデーションモデルの科学的理解能力を評価するために設計された動的ベンチマークであるEver-Evolving Science Exam(EESE)を紹介します。 EESEは、データ漏洩のリスクと大規模なテストによる非効率性を解決するために開発されました。 EESEは、5つの分野と500を超えるサブ分野にわたって10万以上の専門的に構成された科学インスタンス(クエリと応答のペア)を含むプライベートEESE-Poolと、リーク防止と低コスト評価のために定期的に更新される500のインスタンスサブセットであるEESEで構成されています。 32のオープンソースモデルとクローズソースモデルの実験は、EESEが科学分野と認知レベルでモデルの強みと弱点を効果的に区別することを示しています。

Takeaways、Limitations

Takeaways:
ファンデーションモデルの科学的理解能力を評価するために必要な信頼性、拡張性、将来の互換性を提供するベンチマーク設計。
データ漏洩のリスクを減らし、効率的な評価を可能にします。
様々なモデルの科学的能力比較と分析支援
Limitations:
EESE-Poolは非公開に保たれ、アクセシビリティが制限される可能性があります。
ベンチマークの継続的な更新と保守に必要なリソース。
ベンチマークが特定の科学分野とサブ分野に集中しているため、他の分野の一般化が制限される可能性があります。
👍