본 논문은 다양한 역동성에서 수집된 데이터로부터 학습하기 위해, 전문가의 상태 궤적을 활용하는 관찰로부터의 모방 학습(IfO) 방법을 다룹니다. IfO는 다른 역동성에서 전문가 상태 분포를 복원하는 것이 현재 역동성에서 정책 학습을 용이하게 한다는 전제에 기반합니다. 하지만 모방 학습은 학습된 정책의 성능 상한선을 본질적으로 부여하며, 환경 역동성이 변화함에 따라 특정 전문가 상태는 접근 불가능해져 그 분포의 가치가 떨어질 수 있습니다. 이를 해결하기 위해, 본 논문은 IfO에 보상 극대화를 통합하고 F-거리 규제 정책 최적화를 사용하는 새로운 프레임워크를 제안합니다. 이 프레임워크는 모든 고려된 역동성에서 비영 방문 빈도를 갖는 전역적으로 접근 가능한 상태에 대한 제약을 강화하여 접근 불가능한 상태로 인한 문제를 완화합니다. F-거리를 다양한 방식으로 구현함으로써, 두 가지 이론적 분석을 도출하고 Accessible State Oriented Policy Regularization (ASOR)이라는 실용적인 알고리즘을 개발합니다. ASOR은 오프라인 강화 학습 및 오프 폴리시 강화 학습을 포함한 다양한 강화 학습 접근 방식에 통합될 수 있는 일반적인 추가 모듈 역할을 합니다. 여러 벤치마크에 대한 광범위한 실험은 ASOR이 최첨단 도메인 간 정책 전이 알고리즘을 향상시키고 성능을 크게 개선하는 데 효과적임을 보여줍니다.