Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Language model developers should report train-test overlap

Created by
  • Haebom

作者

Andy K Zhang, Kevin Klyman, Yifan Mai, Yoav Levine, Yian Zhang, Rishi Bommasani, Percy Liang

概要

本論文は、言語モデル評価の信頼性を高めるために、トレーニングデータとテストデータの間の重複問題を扱います。現在、ほとんどの言語モデルはトレーニングデータを公開せずに評価結果のみを公開しているため、トレインテストオーバーラップを測定するのは難しいことを指摘しています。研究陣は30のモデル開発者を対象にアンケート調査を行い、train-test overlap関連情報公開の現状を分析し、たった9人の開発者だけが関連情報を公開していることを明らかにした。さらに、言語モデル開発者がパブリックテストセットの評価結果を報告するときにトレインテストオーバーラップ統計および/またはトレーニングデータを公開する必要があると主張する。

Takeaways、Limitations

Takeaways:
言語モデル評価の信頼性を確保するために、Train-test overlap情報開示の重要性を強調する。
現在の言語モデル評価の透明性の欠如の問題を明らかにする。
30のモデル開発者に対するアンケート調査の結果を通じて現況を具体的に提示する。
Train-test overlap 情報公開のための開発者の自発的な参加を誘導する。
Limitations:
アンケート調査の参加率が低く、一般化の可能性に限界がある可能性がある。
Train-test overlapの測定と開示の具体的な方法論の提示が欠けている。
30のモデル開発者のみを対象としたため、すべての言語モデルに対する一般化は難しい。
👍