Dans cet article, nous proposons une nouvelle méthode, la Perception de Sécurité Sensible à la Densité (DASP), pour résoudre le problème de décalage de la distribution d'état dans l'apprentissage par renforcement hors ligne. DASP encourage les agents à prioriser les actions conduisant à des résultats à forte densité de données et à revenir dans la zone (sûre) de la distribution. Pour ce faire, nous optimisons la fonction objective dans un cadre variationnel qui prend en compte simultanément les résultats potentiels d'une décision et leur densité, fournissant ainsi des informations contextuelles importantes pour une prise de décision sûre. Nous vérifions l'efficacité et la faisabilité de la méthode proposée par des expériences approfondies dans les environnements hors ligne MuJoCo et AntMaze.