本論文は、大規模言語モデル(LLM)推論の高い計算コスト問題を解決するために、認知負荷理論(CLT)と神経科学原理を適用した新しいパラダイムである認知負荷認識推論(CLAI)フレームワークを提示します。 CLAIは、問題の本質的な複雑さ($ICL_{LLM}$)、不要な計算($ECL_{LLM}$)、および生産的な推論のトークン割り当て($GCL_{LLM}$)を定量化し、推論プロセスを認知経済最適化問題に再構成します。 2つの提案された実装方法、CLAI-Prompt(ゼロショットメタプロンプトベース)とCLAI-Tune(微調整モデル)は、複雑な推論、長文脈のクエリ応答、コード生成など、さまざまなベンチマークで最大45%のトークン消費を削減し、精度を維持します。特にCLAI-Tuneは、困難な問題を自律的に分解する能力を示しています。これは、脳の資源管理戦略を模倣することで、より効率的で強力で能力のある人工知能システムを構築できることを示しています。