Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Avoiding Catastrophe in Online Learning by Asking for Help

Created by
  • Haebom

作者

Benjamin Plaut, Hanlin Zhu, Stuart Russell

概要

この論文は、既存のオンライン学習アルゴリズムがすべてのミスを回復できると仮定する限界を指摘し、いくつかのミスが不可逆的な「致命的」ミスである場合を考慮した新しいオンライン学習の問題を提示します。各ラウンドの報酬を「災害回避確率」と定義し、限られたメンタークエリの回数内で災害回避確率の積(全災害回避確率)を最大化することを目指します。同様の入力間の知識の遷移を可能にし、一般的には、メンターの質疑率が線形であるか、災害発生確率がほぼ1に近いことを証明する。ただし、標準のオンラインモデルでは、メンターポリシークラスが学習可能な環境では、メンタークエリ率と後悔が時間の地平線が大きくなるにつれてゼロに収束するアルゴリズムを提示します。報酬の積に焦点を当てましたが、一般的な加算的後悔の境界も示しています。重要なことに、致命的なリスクがない場合にポリシークラスが学習可能であれば、メンターの助けを借りることができれば、致命的なリスクがある場合も学習可能であることがわかります。

Takeaways、Limitations

Takeaways:致命的なミスの可能性を考慮した新しいオンライン学習フレームワークの提示。メンタリングによる学習可能性の証明限られたメンタリングの下で​​も効率的な学習戦略の提示加算的後悔と乗算的後悔の両方に対する境界提示
Limitations:メンターポリシークラスが標準オンラインモデルで学習可能であるという仮定が必要です。
👍