Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Adaptive Rectification Sampling for Test-Time Compute Scaling

Created by
  • Haebom

作者

Zhendong Tan, Xingjun Zhang, Chaoyi Hu, Yancheng Pan, Shaoxun Wang

概要

OpenAI-o1とDeepSeek-R1の試験時間スケーリングは、論理的推論などの複雑な作業においてモデル性能を大幅に向上させることができることを示した。本論文は、自己修正によって誤差をより細かいレベルで修正することを可能にする適応型応答サンプリング(AR-Sampling)を提案する。 AR-Samplingは、検証者として機能するプロセス監督補償モデル(PRM)とトリガ文を活用して、モデルが適切な段階で適応的に再考されるように誘導します。 GSM8KとMATH500の実験の結果、提案されたアプローチは、モデルがより細かいレベルで再び考えられるようにし、ソリューションの精度を向上させながら合理的な数の追加トークンを生成することを確認しました。

Takeaways、Limitations

AR-Samplingは、モデルが誤差を細かいレベルで修正するように導き、精度を向上させます。
PRMとトリガ文を活用して、適応的な段階的在庫を可能にする。
追加のトークン生成を合理的なレベルに保ちます。
実験はGSM8KとMATH500のデータセットに限定され、他の複雑な作業の一般化の可能性をさらに検証する必要があります。
PRMの性能とトリガ文の設計はシステム全体の効率に影響を与える可能性があります。
👍