Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Created by
  • Haebom

作者

Lizhi Yang, Blake Werner, Massimiliano de Sa, Aaron D. Ames

概要

強力で表現力が豊富ですが、安全を犠牲にすることが多い強化学習(RL)の限界を克服するために、動的安全を確保する制御バリア関数(CBF)をRLトレーニングに統合するCBF-RLフレームワークを提案します。このフレームワークは、RLポリシーにCBF項を追加して安全制約を最小限に変更し、トレーニング中のポリシーロールアウトに安全フィルタリングを適用します。理論的には、連続時間セーフティフィルタを離散時間ロールアウトに対して閉じた形式で配布できることを証明し、実際には学習されたポリシーに安全制約を内在化し、オンラインセーフティフィルタなしで安全な配布を可能にします。ナビゲーション作業とUnitree G1ヒューマノイドロボットによるCBF-RLの効果を検証し、安全なナビゲーション、迅速な収束、不確実性の中で堅牢な性能を示しました。

Takeaways、Limitations

Takeaways:
CBF-RLはRL訓練にCBFを統合し、安全な動作を保証します。
学習されたポリシーは安全制約を内在化し、オンライン安全フィルタなしで安全な展開を可能にします。
ナビゲーション作業とヒューマノイドロボット実験により効果を検証した。
安全なナビゲーション、迅速な収束、不確実性の中で堅牢な性能を発揮します。
Limitations:
論文に具体的なLimitationsは記載されていない。
👍