本論文は、持続的で長い文脈の入力をローカルデバイスで処理できるマシンインテリジェンスの需要の増加に伴い、既存のTransformerアーキテクチャの制限を克服するための研究を提示します。従来のトランスフォーマーの二次的な複雑さとメモリー要件により、効率が低下し、実際の使用が難しい点を解決するために、リニアスケーラビリティを提供するState Space Models(SSM)とハイブリッドモデルを中心に研究が進められています。本論文は、実際の消費者向けおよび組み込みGPUでの長いコンテキストの推論のためのTransformer、SSM、およびハイブリッドモデルの包括的な比較ベンチマークを実行し、SSMがより長いコンテキスト処理に適しており、消費者向けGPUで最大220Kトークンまで処理可能であることを示しています。特に、長い文脈では、SSMがTransformerより最大4倍速い速度を示すことを確認し、ハードウェア認識SSMカーネルが推論実行時間の55%以上を占めることを明らかにし、今後のハードウェア加速化の主な目標であることを示唆しています。また、エッジシステム共同設計のための詳細なデバイス別特性分析結果を提供し、研究をさらに発展させるためにベンチマークフレームワークをオープンソースで公開する予定です。