Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

In-Context Learning Strategies Emerge Rationally

Created by
  • Haebom

作者

Daniel Wurgaft, Ekdeep Singh Lubana, Core Francisco Park, Hidenori Tanaka, Gautam Reddy, Noah D. Goodman

概要

本論文は、さまざまな実験条件でモデルの挙動を説明する広範な戦略を統合的に理解するために、インコンテキスト学習(ICL)でモデルが異なる戦略を学習する理由を探ります。具体的には、既存の研究でよく使用されているさまざまなタスクの混合学習環境でモデルが学習するICL戦略について、ベイズ予測器の枠組みの中で説明します。これは、暗記予測器(離散的前提条件)と一般化予測器(辞書が基底作業分布と一致する)で構成されています。合理的な分析の観点を採用して、計算上の制約を考慮したデータに最適な適応で学習者の行動を説明する階層的なベイジアンフレームワークを開発します。このフレームワークは、モデルの重みに近づくことなく、学習前のプロセス全体でトランスフォーマーの次のトークン予測をほぼ完全に予測します。このフレームワークでは、事前学習を様々な戦略の事後確率を更新する過程であり、推論時点の行動をこれらの戦略の予測に対する事後加重平均としてみます。ニューラルネットワーク学習力学の一般的な仮定に基づいて,候補戦略間の損失と複雑さの間のトレードオフを明示的に提示する。言い換えれば、データをどれだけうまく説明するかにかかわらず、モデルが特定の戦略を実装することを好む程度は、その戦略の複雑さによって決まります。これは、周知のICL現象をよく説明するとともに、例えば、作業の多様性が増加するにつれて、一般化から暗記への遷移の時間スケールの超線形傾向などの新しい予測を提供する。全体的に、この研究は、戦略の損失と複雑さとのトレードオフに基づいてICLの説明的かつ予測的な説明を提示します。

Takeaways、Limitations

Takeaways:
ICLでは、モデルのさまざまな戦略をベイズ予測機フレームワークとして統合的に説明します。
階層的なベイジアンフレームワークを通じて、トランスフォーマーの次のトークン予測を正確に予測します。
事前学習過程と推論時点の挙動を事後確率と加重平均として説明する。
戦略的損失と複雑さの間のトレードオフ関係を明示的に提示し、ICL現象を説明し、新しい予測を提示します。
作業多様性の増加に伴う一般化から暗期への遷移時間尺度の超線形傾向予測
Limitations:
フレームワークが特定の種類のニューラルネットワークに限定される可能性。
計算上の制約を考慮した合理的な分析の仮定は、実際のモデルの学習プロセスと完全に一致しない可能性があります。
提示されたフレームワークの一般化能力に関する追加の実験的検証が必要です。
異なるタイプのICL戦略やモデルへの適用性に関するさらなる研究が必要
👍