Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Entropy-Memorization Law: Evaluating Memorization Difficulty of Data in LLMs

Created by
  • Haebom

作者

Yizhan Huang, Zhe Yang, Meifang Chen, Jianping Zhang, Michael R. Lyu

概要

本論文は、大規模言語モデル(LLM)の訓練データ暗記現象に関する基本的な質問、すなわち訓練データの暗記難易度をどのように特徴付けることができるかを扱う。 OLMoというオープンモデル系を用いた実験を通じて、エントロピー-暗記法則(Entropy-Memorization Law)を提示する。この法則は、データエントロピーが暗記スコアと線形的に相関関係があることを示唆しています。さらに、高レベルにランダム化された文字列を暗記するケーススタディでは、これらの文字列は外観上のランダム性にもかかわらず、広範なトレーニング釘に比べて予想外に低い経験的エントロピーを示すことが観察されます。エントロピー暗記法則を発見するのと同じ戦略を採用し、トレーニングデータとテストデータを区別する簡単で効果的なアプローチであるデータセット推論(DI)を導き出す。

Takeaways、Limitations

Takeaways:
LLMの訓練データ暗記現象を理解する上でのデータエントロピーの重要性を提示する。
エントロピー - 暗記法則によって訓練データの暗記難易度を予測する可能性を示す。
データセット推論(DI)という新しい技術を提示し、トレーニングデータとテストデータを区別する方法を提供します。
Limitations:
OLMoは特定のモデルファミリーの実験結果に基づいており、他のLLMにも同様に適用できるかどうかについて一般化の可能性に関するさらなる研究が必要です。
エントロピー暗記法則の線形相関の強度および適用範囲のさらなる分析が必要である。
データセット推論(DI)の性能と限界のより幅広い評価が必要です。
👍