Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Finite Sample Analysis of Linear Temporal Difference Learning with Arbitrary Features

Created by
  • Haebom

作者

Zixuan Xie, Xinyu Liu, Rohan Chandra, Shangtong Zhang

概要

線形TD($ \ lambda $)は、政策評価のための基本的な強化学習アルゴリズムの1つです。従来は線形に独立した特徴を仮定して収束速度を設定してきたが、これは多くの実際の状況では成り立たない。本論文は、アルゴリズムの修正や追加の仮定なしに、任意の特徴で動作する線形TD($ \ lambda $)の最初の$ L ^ 2 $収束速度を設定します。これは割引と平均報酬設定の両方に適用されます。さらに、任意の特徴による潜在的な解の非一意性を解決するために、単一点ではなく解集合への収束速度を特徴とする新しい確率的近似結果を開発する。

Takeaways、Limitations

任意の特徴を使用する線形TD($\lambda$)の$L^2$収束速度の初期設定
割引と平均報酬設定の両方に適用可能
解の非一意性問題を解決するための新しい確率的近似結果の提示
アルゴリズムの修正や追加の仮定は不要
(論文内容の要約で Limitations 関連情報の不在)
👍