Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The Invisible Leash: Why RLVR May Not Escape Its Origin

Created by
  • Haebom

作者

Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi

概要

本論文は、検証可能な補償を使用した強化学習(RLVR)が複雑な論理的課題解決能力の向上に有用な方法ですが、モデルの推論範囲を実際に拡張するのか、または基本モデルが既に知っている高補償出力を精度向上のために増幅するに過ぎないのかについて疑問を提示します。この研究は、理論的および実験的調査を通じて、RLVRの潜在的な限界に関する新しい洞察を提供します。 RLVRは基本モデルのサポートによって制約され(初期確率がゼロのソリューションをサンプリングできない)、保守的な再重み付けメカニズムとして機能し、まったく新しいソリューションの発見を制限できるという新しい理論的観点を提示します。また、エントロピー補償間の矛盾関係を確認します。 RLVRは精度を向上させますが、ナビゲーションを徐々に絞り込んで正解ですが、過小表現されたソリューションを見落とすことができます。広範な実験の結果、RLVRはpass@1を継続的に改善していますが、経験的サポートの縮小は一般的に大きなサンプリング予算の下での経験的サポートの拡張よりも大きく、基本モデルから以前にアクセス可能な正解を回復できないことを確認しました。興味深いことに、RLVRは時々トークンレベルのエントロピーを増加させ、各生成段階で不確実性が大きくなりますが、回答レベルのエントロピーは減少し、これらの見かけ上、より不確実なパスは最終的に小さなセットのユニークな答えに収束することを示しています。総合的に、これらの結果は、推論の地平線を拡大する際のRLVRの潜在的な制限を示しています。このような目に見えない束縛を破るためには、明示的なナビゲーションメカニズムや過小表現されたソリューション領域に確率質量を与えるハイブリッド戦略など、将来のアルゴリズム革新が必要になる可能性があります。

Takeaways、Limitations

Takeaways: RLVRはpass@1のパフォーマンスを向上させますが、基本モデルのサポートに依存して新しい解決策を見つけるのに制限的であることを明らかにしました。エントロピー補償間の相反関係を解明してRLVRの限界を示します。
Limitations: RLVRが基本モデルのサポートから抜け出せず、過小表現された正解を見落とす可能性がある。新しい解決策を発見するには、追加のナビゲーションメカニズムが必要です。より大きなサンプリング予算の下で、経験的支援の縮小が拡大よりも大きく現れた。
👍