この論文は、大規模言語モデル(LLM)が政治的、経済的理念的偏向をコード化して再現する傾向について懸念しています。デコーダベースのLLMでは、これらの偏向を調査して軽減するためのフレームワークを提示し、政治コンパステスト(PCT)に基づいて、ミストラルやディープシークなどのモデルの隠れ層活性化を抽出して比較する対照対を使用します。複数の理念的な軸にわたる階層分析を可能にする包括的なアクティベーション抽出パイプラインを導入し、政治的フレーミングに関連する意味のある違いを明らかにします。その結果、デコーダLLMは階層全体にわたって体系的に表向き偏向を符号化し、これは効果的なステアリングベクトルベースの緩和に利用できることを示している。表面的な出力介入を超えて偏向を排除するための原則的なアプローチを提示し、LLMに政治的偏向がどのようにコード化されるかについての新しい洞察を提供します。