Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

STORI: A Benchmark and Taxonomy for Stochastic Environments

Created by
  • Haebom

作者

Aryan Amit Barsainyan, Jing Yu Lim, Dianbo Liu

概要

強化学習(RL)技術はAtari100kのようなシミュレーションベンチマークで印象的な性能を収めましたが、最近の発展は主にシミュレーションに限られており、実際の環境への移行が制限されています。主な障害物は環境的確率であり、実際のシステムは騒々しい観察、予測不可能な力学、および現在の方法の安定性を阻害する異常な条件を含む。この不確実性を捉えるベンチマークはまれであり、アルゴリズムが成功するように調整できる単純化された設定を好む。確率性の明確に定義された分類法の欠如は、評価をより複雑にします。この重要なギャップを解決するために、STORI(STOchastic-ataRI)を導入します。 STORIは、さまざまな確率的効果を体系的に統合し、さまざまな形態の不確実性の下でRL技術の厳格な評価を可能にするベンチマークです。環境確率の包括的な5種類の分類法を提案し、DreamerV3とSTORMのターゲット評価を通じて、最先端のモデルベースのRLアルゴリズムの体系的な脆弱性を示しています。研究結果によると、世界モデルは環境分散を深刻に過小評価し、アクションの損傷に困難を経験し、部分的な観察の下で信頼できない力学を示しています。より堅牢なRLシステム開発のための統合フレームワークを提供し、コードとベンチマークは公にリリースされました。

Takeaways、Limitations

Takeaways:
環境的確率性を体系的に統合するSTORIベンチマークの導入により、強化学習アルゴリズムの実環境での堅牢性を評価できるフレームワークを提供。
環境不確実性に関する包括的な5種類の分類法の提案。
DreamerV3やSTORMなどの最先端のモデルベースのRLアルゴリズムが環境不確実性に脆弱であることを示しています。
世界モデルが環境分散を過小評価し、アクションダメージを受けやすく、部分観察下で信頼できないダイナミクスを見せることを発見。
Limitations:
STORMベンチマークのLimitationsは、提示された論文で直接言及されていません。 (ただし、ベンチマークがシミュレーション環境に限られているか、特定のアルゴリズムにのみ適用できるという点など、ベンチマーク自体の特性や開発過程での制約はあり得る)
DreamerV3およびSTORM以外の他のアルゴリズムの広範な評価が不足する可能性があります。
研究結果は特定のアルゴリズムに限定される可能性があり、他のアルゴリズムに一般化するのは困難です。
👍