Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

P2DT: Mitigating Forgetting in task-incremental Learning with progressive prompt Decision Transformer

Created by
  • Haebom

作者

Zhiyuan Wang、Xiaoyang Qu、Jing Xiao、Bokui Chen、Jianzong Wang

概要

本論文は,大規模モデルで制御されたインテリジェントエージェントで新たな課題に直面したときに劣化を引き起こす致命的な忘却問題に対する解決策として,Progressive Prompt Decision Transformer(P2DT)を提案する。 P2DTは、新たな課題学習中に意思決定トークンを動的に追加し、トランスベースのモデルを強化することで課題別の方針を促進します。これは、継続的およびオフライン強化学習シナリオで忘却を軽減します。さらに、P2DTは、すべての課題で既存の強化学習を通じて収集された軌跡を活用し、学習中に新しい課題別トークンを生成し、以前の学習の知識を維持します。当初の結果は,本モデルが致命的な忘却を効果的に緩和し,増加する課題環境でうまく拡張したことを示した。

Takeaways、_____T95578​​_____

Takeaways:
変圧器ベースモデルにおける致命的忘却問題を効果的に緩和する新しい方法を提示
継続的およびオフライン強化学習の両方に適用可能
既存学習データを効果的に活用し、新たな課題学習に活用
増大する課題環境でもスケーラビリティに優れていることを示す
Limitations:
初期結果のみが提示され、追加の実験と検証が必要
さまざまな環境と課題に対する一般化性能に関するさらなる研究が必要
P2DTの計算コストと効率の詳細な分析が必要
👍