本論文は、ほとんどの入力に対して極端な活性化を示す最後の層の「異常値次元」について研究する。様々な最新の言語モデルでこれらの異常値次元が発生することを示し、その機能が頻繁な単語を継続的に予測するヒューリスティックに関連していることを明らかにします。また、モデルが状況に合わない場合、残りの次元にバランスのとれた重みを割り当てることで、このヒューリスティックをブロックできることを示しています。モデルパラメータが異常値次元を増やす時点とトレーニング中にいつ発生するかを調べます。結論として、理想レベルは、多くのモデルが有用なトークン予測ヒューリスティックを実装するために見つけた特殊なメカニズムです。