本稿では、大規模言語モデル(LLM)をデータ適合および予測生成に使用することの脆弱性について説明します。 LLMはさまざまなタスクで競争力のある予測パフォーマンスを示していますが、タスクとは無関係のデータ表現の変化(変数名の変更など)に予測結果が大きく左右される脆弱性があることを明らかにしています。これは、in-context learning と supervised fine-tuning の両方で、close-weight と open-weight LLM の両方に現れる現象であり、open-weight LLM のアテンションメカニズム分析によって特定の位置のトークンに過度の集中が生じることを確認しました。データ適合のために特別に訓練されたTabPFNなどの最先端のモデルでさえ、これらの脆弱性では自由ではありません。したがって、現在のLLMは、原則的なデータ適合ツールとして使用するための基本的なレベルの堅牢ささえ不足しています。