Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Beyond Memorization: Assessing Semantic Generalization in Large Language Models Using Phrasal Constructions

Created by
  • Haebom

作者

Wesley Scivetti, Melissa Torgbi, Austin Blodgett, Mollie Shichman, Taylor Hudson, Claire Bonial, Harish Tayyar Madabushi

概要

本論文は,大規模な事前学習データの利用による評価の難しさ,すなわち事前学習データによく現れる場合の言語能力と,事前学習データにあまり一般的でない動的実世界インスタンスの一般化を区別する問題を解決するために,Construction Grammar(CxG)を活用した診断評価を提示する。 CxGは、構文型を抽象的で非語彙的な意味と明示的に結び付けることで、一般化をテストするための心理言語学的に基づいたフレームワークを提供します。研究者は英語のフレーズを使用して新しい推論評価データセットを構築しました。これは、話者が一般的な例を抽象化して創造的な例を理解して生成できることを活用しています。このデータセットは、2つの中心的な質問、すなわちモデルが事前学習データにあまり頻繁に現れないが、人間が理解しやすく直感的な文の意味を「理解する」ことができ、構文的に同じですが、意味の異なる構造が与えられたときに適切な構造的意味を使用できるかどうかを評価します. GPT-o1を含む最先端のモデルは、2番目の課題で40%以上のパフォーマンスが低下しているため、人間と同じ構文的に同じ形式を一般化し、区別される構造的意味に達することが失敗することを示しています。新しいデータセットと関連する実験データ(プロンプトとモデル応答を含む)を公に提供します。

Takeaways、Limitations

Takeaways:
大規模言語モデル(LLM)の一般化能力の詳細な理解を提供します。
Construction Grammar(CxG)を活用した新しい評価フレームワークを紹介します。
LLMの制限を明確に示す新しいデータセットを公に提供します。
事前学習データの偏りがLLMの性能に及ぼす影響の分析に寄与する。
Limitations:
評価データセットは英語のフレーズにのみ集中しているため、他の言語や構造の一般化の可能性が限られている可能性があります。
CxGフレームワークへの依存度が高く、他の理論的観点からは解釈が変わる可能性があります。
評価対象のモデルが限られている可能性があります。より多様なモデルに対するさらなる実験が必要である。
👍