本稿では、Transformerベースのアーキテクチャでsoftmaxを使用する既存のアテンションメカニズムの制限を指摘し、それを改善するための新しい方法を紹介します。 softmaxは、すべてのトークンの確率分布を生成します。これは、固定サイズのパターンに正確に集中する必要があるタスクでは、長いシーケンスの長さに応じて情報のないトークンがアテンション確率の質量を蓄積して分散および表現の崩壊につながるという問題があります。本稿では、$ \ alpha $ -entmaxを使用するスパースアテンションメカニズムがこれらの問題を解決できることを示し、学習可能な温度パラメータを持つAdaptive-Scalable Entmax(ASEntmax)を提案します。 ASEntmaxは、アテンション分布がスパース(パターン中心)モードとdense(softmax様)モードの間で補間されるようにします。さらに、適切な位置符号化設計により、固定サイズパターンの位置特定および一般化能力を向上させることができることが示されている。実験の結果、ASEntmaxと適切な位置エンコーディングを組み込んだモデルは、softmax、scalable softmax、および固定温度$ \ alpha $ -entmaxベースのモデルよりも長いコンテキスト一般化タスクでパフォーマンスが大幅に向上することを確認しました。