[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans

Created by
  • Haebom

作者

Masha Fedzechkina, Eleonora Gualdoni, Sinead Williamson, Katherine Metcalf, Skyler Seto, Barry-John Theobald

概要

この論文は、大規模言語モデル(LLM)の表現が人間の表現とどれだけうまく一致するかを研究する新しいアプローチを提供します。活性化ステアリング技術を利用して、特定の概念(例えば「猫」)のニューロンを識別し、その活性化パターンを分析します。その結果、このように捉えられたLLM表象は、行動データから推定されたヒト表象と非常に似ており、人間間の一致レベルと一致することを示しています。既存の研究で主に使用されていた単語の埋め込みよりもはるかに高いレベルの一致を示し、LLMが概念を人間と同様の方法で構成していることを示しています。

Takeaways、Limitations

Takeaways:
LLMの表象とヒトの表象との間の位置合わせレベルを定量的に測定する新しい方法を提示する。
単語埋め込みよりも高いレベルのLLMとヒトの表象との間の位置合わせを確認する。
LLMが人間と同様の方法で概念を組織化していることを証明。
LLMの概念表象のより細かい分析可能。
Limitations:
活性化ステアリング技術に依存するので、特定の概念のためのニューロン識別の正確性の検証が必要です。
分析対象は特定のLLMおよび特定の概念に限定され得る。一般化の可能性に関するさらなる研究が必要
行動データによる人間の表象推論のLimitationsを考慮しなければならない。
👍