Transformerベースの大規模言語モデル(LLM)の高い推論要件は、展開に大きな課題をもたらします。この目的のために、自己注意層をLinear Minimum Mean Squared Error推定値から導出された線形近似に置き換えて、トランスモデルの推論を加速する新しいフレームワークであるNeural Block Linearization(NBL)を紹介します。 NBLは正準相関分析を利用して近似誤差の理論上限を計算する。次に、この境界を代替基準として使用して、線形化誤差が最も低いLLMレイヤを選択します。 NBLは、微調整なしで事前訓練されたLLMに効率的に適用できます。実験では、NBLは複数の推論ベンチマークで競争力のある精度を維持しながら、かなりの計算速度向上を達成しました。たとえば、DeepSeek-R1-Distill-Llama-8Bの12個の自己主義層にNBLを適用すると、1%未満の精度損失で推論速度が32%増加し、LLMの推論効率を向上させる柔軟で有望なソリューションになります。