Sign In

Policy Constraint by Only Support Constraint for Offline Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Yunkai Gao, Jiaming Guo, Fan Wu, Rui Zhang

개요

본 논문은 오프라인 강화학습에서 정책 학습 시 발생하는 분포 불일치 문제를 해결하기 위해 새로운 정책 제약 방법인 Only Support Constraint (OSC)를 제안합니다. 기존 정책 제약 방법들이 지나친 보수성으로 인해 성능 향상에 제한을 받는 문제를 해결하고자, OSC는 행동 정책의 지지 집합 내에서 학습된 정책의 총 확률을 극대화하는 것을 목표로 합니다. OSC는 지지 집합 내부의 행동에 추가적인 제약을 가하지 않고, 오직 지지 집합에 대한 제약만을 부과하는 정규화 항을 제시합니다. 또한, 확산 모델을 활용하여 행동 정책의 지지 집합을 효과적으로 특징짓는 방법을 제시합니다. 다양한 오프라인 강화학습 벤치마크 실험 결과, OSC가 성능을 크게 향상시키고 분포 불일치 문제와 보수성 문제를 완화함을 보여줍니다.

시사점, 한계점

시사점:
오프라인 강화학습에서 분포 불일치 문제를 효과적으로 해결하는 새로운 정책 제약 방법 OSC 제안.
기존 방법의 보수성 문제를 완화하여 성능 향상 달성.
확산 모델을 활용하여 행동 정책의 지지 집합을 효과적으로 표현.
다양한 벤치마크 실험을 통해 성능 향상을 검증.
공개된 코드를 통해 재현성 확보.
한계점:
제안된 방법의 효과가 특정 환경이나 문제에 국한될 가능성.
확산 모델의 학습 과정 및 계산 비용에 대한 추가적인 분석 필요.
더욱 다양하고 복잡한 환경에서의 성능 평가 필요.
👍