本論文は,オフライン強化学習における状態分布移動問題を解決するための新しい方法であるDensity-Aware Safety Perception(DASP)を提案する。 DASPは、エージェントがデータ密度の高い結果につながる動作を優先して、分布内(安全な)領域内または分布内領域に戻る動作を促進します。そのために、意思決定の潜在的な結果とその密度を同時に考慮する変分フレームワーク内で目的関数を最適化し、安全な意思決定のための重要な状況情報を提供します。 MuJoCoとAntMazeオフライン環境での広範な実験により、提案された方法の効果と実現可能性を検証しました。