この論文は、大規模言語モデル(LLM)の新しい知識を習得する能力を評価するための新しいフレームワークを提案します。このフレームワークは、科学的知識を紹介する文章についてLLMが質問を生成するように誘導し、その文章に初めて興味を持つ人をシミュレートします。生成された質問の質を評価してLLMの知識習得の可能性を評価し、管理された排除研究を通じて採点手順の妥当性を検証します。物理、化学、数学の分野で難易度の異なる1101個の文章、一般常識文章300個、誤った文章567個からなる合成データセットを生成し、人間評価を通じてモデル評価の有効性を検証しました(重み付けCohen's kappa約0.7)。 GPT-4やMistral 8x7bなどの大規模モデルは、一貫した関連性のある質問を生成するのに優れていますが、小さいPhi-2モデルも同等またはより効果的であることがわかりました。これは、モデルのサイズが知識の習得の可能性を決定する唯一の要因ではないことを示唆しています。提案されたフレームワークは、以前見落とされた重要なモデル機能を定量化し、より知識豊富なAIシステムを開発するための研究機会を提供します。