この論文は、大規模言語モデル推論を加速する投機的復号化が、さまざまな要求を持つ大規模な展開サービス環境では、固定投機長に依存するのが最適ではないことを指摘しています。したがって、この論文は事後診断信号の新しい種類を調査し、動的適応のための新しい方向を探ります。この目的のために、2つの主要コンポーネントに基づくトレーニングを必要としないフレームワークである動的投機的デコードエンジン(DSDE)を提案します。第一に、生成の局所的安定性を診断するKullback-Leibler(KLD)発散の分散に基づく予測信号であり、第二に、各シーケンス復号における遅延問題を軽減するための適応投機長上限値である。実験結果は、KLDベースの安定性シグナルを動的適応に使用できる可能性を示しています。これらの信号によって導かれるアルゴリズムは、最高の基準と競争力のあるエンドツーエンドの遅延時間を達成し、さまざまなワークロードで優れた堅牢性を示します。これらの堅牢性は、特に提案されたシグナルが診断の有用性を維持することが困難な低レシピエントシステムで価値があります。結論として、これらの知見は、事後信号がより強力でインテリジェントなLLM推論システムを構築するための重要なコンポーネントであることを検証し、動的投機長の適応に関する将来の研究の有望な方向性を強調する。