本論文は、事前訓練された大規模モデルのメモリと計算コストを削減するために広く使用されている圧縮技術である量子化について説明します。特に、チャネルごとのポストトレーニング量子化(PTQ)では、重み値をスケーリングされた整数グリッドの値に置き換えるための適切なスケーリング要素を選択することが主な課題です。従来の方法は通常、ヒューリスティックチューニングまたはグリッド検索によってスケールを事前に固定している。この論文では、これらの手動チューニングを必要としないシンプルで効果的なアルゴリズムであるBeaconを提案します。 Beaconは、スケーリングされていないグリッドを直接使用してチャンネルごとのPTQを実行し、スカラー量子化の幾何学的特性を利用して最適なスケーリング要素を自動的に決定します。逆伝播または大規模補正セットに依存しません。シンプルさとチューニングを必要としない特性にもかかわらず、Beaconは最先端の方法と比較して競争力のあるパフォーマンスを達成し、効率的なモデル展開のための実用的なソリューションになります。