Pre-training Limited Memory Language Models with Internal and External Knowledge
Created by
Haebom
作者
Linxi Zhao, Sofian Zalouk, Christian K. Belardi, Justin Lovelace, Jin Peng Zhou, Ryan Thomas Noonan, Dongyoung Go, Kilian Q. Weinberger, Yoav Artzi, Jennifer J. Sun
概要
ニューラル言語モデルはブラックボックスであり、言語パターンと現実的な知識が多数の不透明なパラメータに分散しています。このエンタングルエンコーディングは、特定の事実を確実にチェック、確認、または更新するのを困難にします。本論文では,事前訓練中に事実的知識を暗記するのではなく,外部データベースとして外部に格納するLimited Memory Language Models(LMLM)を紹介する。著者は、事前訓練アプローチを介して外部から検索された事実値を訓練損失から戦略的にマスクし、モデルがモデルの重みに依存するのではなく目標照会を実行するように学習する。実験の結果、LMLMは標準ベンチマークではるかに大きいLLMと比較して競争力のあるパフォーマンスを達成しながら、明示的、編集可能で検証可能な知識ベースという利点を提供することを示しました。