Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Beyond Frequency: The Role of Redundancy in Large Language Model Memorization

Created by
  • Haebom

作者

Jie Zhang, Qinghua Zhao, Chi-ho Lin, Zhongfeng Kang, Lei Li

概要

この論文は、大規模言語モデル(LLM)の記憶が個人情報の保護と公平性に及ぼす危険性について説明します。従来の研究では、記憶とトークンの頻度と反復パターンとの間の相関関係を明らかにしたのとは異なり、本研究は頻度の増加が記憶されたサンプルには最小の影響(例えば0.09)を与え、記憶されていないサンプルにはかなりの影響(例えば0.25)を与えるユニークな応答パターンを明らかにしました。サンプルプレフィックスを変更し、トークンの位置を変更することによって摂動強度を定量化する反射実績分析は、冗長性が記憶パターンと相関していることを示しています。研究の結果、記憶されたサンプルの約79%が低い冗長性を有し、これらの低い冗長性サンプルは高い冗長性サンプルよりも2倍高い脆弱性を示した。摂動時に記憶されたサンプルは0.6減少しますが、記憶されていないサンプルは0.01のみ減少し、より重複したコンテンツはより覚えやすいがより脆弱であることを示します。これは、データの前処理に冗長性ベースのアプローチを活用して、プライバシーのリスクを軽減し、公平性を確保できることを示唆しています。

Takeaways、Limitations

Takeaways:
LLMの記憶現象に対する新しい応答パターンの発見(頻度増加の影響差)
冗長性と記憶パターン間の相関関係の解明(低い冗長性の高い脆弱性)
データ前処理における冗長性ベースのアプローチの提案(個人情報の保護と公平性の向上)
Limitations:
本研究の結果をすべてのLLMに一般化できるかどうかに関するさらなる研究が必要
冗長性以外の他の要因の記憶現象への影響分析が必要
提案された冗長性ベースのデータ前処理方式の実際の効果検証が必要
👍