本論文は、最近進化した言語モデルの数学的推論能力を評価する既存のベンチマークが最終回答のみを比較するヒューリスティック方式に依存して、推論過程の誤りを見落とすことを指摘する。これにより誤った推論過程にもかかわらず正解を導き出す「偽陽性(False positive)解決策」が発生する問題を扱う。研究者は、さまざまなオープンソースモデル、難易度のデータセット、デコード戦略における偽陽性ソリューションの発生頻度、特徴、影響を体系的に分析します。特に、偽陽性が言語モデルの推論時間スケーリング行動に及ぼす影響を調べ、偽陽性がpass @ N評価指標に与える影響を分析して、自動評価が示すよりもはるかに低いスケーリング上限を提示する。また、偽陽性の具体的な事例を分析し、これらの条件下で自己改善技術と合成データ生成のLimitationsについて議論する。データとコードは公に提供されています。