Sign In

Quantifying First-Order Markov Violations in Noisy Reinforcement Learning: A Causal Discovery Approach

Created by
  • Haebom
Category
Empty

저자

Naveen Mysore

개요

본 논문은 강화학습(RL)에서 마르코프 가정(Markov assumption)의 위반을 검출하는 체계적인 방법론을 제안한다. 부분 상관 기반의 인과 발견 과정(PCMCI)과 새로운 마르코프 위반 점수(MVS)를 결합하여, 잡음이나 불완전한 상태 정보로 인해 마르코프 성질이 깨질 때 발생하는 다단계 의존성을 측정한다. CartPole, Pendulum, Acrobot과 같은 고전적인 제어 작업을 통해 목표 잡음 및 차원 생략이 RL 성능과 측정된 마르코프 일관성에 미치는 영향을 보여준다. 놀랍게도, 상당한 관측 잡음이 특정 영역(예: Acrobot)에서는 강력한 다지연 의존성을 유발하지 못하는 경우도 있다. 반면, 차원 축소 조사는 일부 상태 변수(예: CartPole 및 Pendulum의 각속도)를 제외하면 수익률이 크게 감소하고 MVS가 증가하는 반면, 다른 차원을 제거하는 것은 최소한의 영향을 미친다는 것을 보여준다. 이러한 결과는 효과적인 단일 단계 학습을 유지하기 위해 가장 인과적으로 중요한 차원을 찾고 보호하는 것이 중요함을 강조한다. 부분 상관 검정과 RL 성능 결과를 통합하여 제안된 접근 방식은 마르코프 가정이 언제 어디서 위반되는지 정확하게 식별한다. 이 프레임워크는 강력한 정책 개발, 표현 학습 정보 제공 및 실제 RL 시나리오에서 부분 관측 가능성 문제 해결을 위한 원칙적인 메커니즘을 제공한다. 모든 코드와 실험 로그에는 재현성을 위해 액세스할 수 있다 (https://github.com/ucsb/markovianess).

시사점, 한계점

시사점:
강화학습에서 마르코프 가정 위반을 체계적으로 검출하는 새로운 방법론 제시
PCMCI와 MVS를 결합하여 다단계 의존성 측정 및 마르코프 가정 위반 정량화
중요한 상태 변수 식별을 통해 강력한 정책 개발 및 표현 학습 개선 가능성 제시
실제 RL 시나리오에서 부분 관측 가능성 문제 해결에 기여
코드 및 실험 로그 공개를 통한 재현성 확보
한계점:
제안된 방법론의 일반화 가능성에 대한 추가 연구 필요
특정 도메인(예: Acrobot)에서 잡음이 다지연 의존성을 유발하지 못하는 이유에 대한 추가 분석 필요
고차원 상태 공간에서의 계산 효율성 개선 필요
다양한 RL 알고리즘 및 환경에 대한 광범위한 실험 필요
👍