Sign In

Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Yixiu Mao, Yun Qu, Qi Wang, Xiangyang Ji

개요

오프라인 강화 학습(RL)은 분포 밖(OOD) 행동으로 인한 외삽 오류에 취약합니다. 이러한 문제를 해결하기 위해 오프라인 RL 알고리즘은 일반적으로 행동 선택에 제약을 가하며, 이를 밀도, 지지, 및 표본 제약으로 분류할 수 있습니다. 그러나 각 범주에는 고유한 한계가 있습니다. 밀도 및 표본 제약은 많은 시나리오에서 과도하게 보수적인 경향이 있는 반면, 가장 덜 제한적인 지지 제약은 행동 정책을 정확하게 모델링하는 데 어려움을 겪습니다. 이러한 한계를 극복하기 위해 본 논문에서는 벨만 타겟에서 데이터셋 행동의 이웃의 합집합으로 행동 선택을 제한하는 새로운 이웃 제약을 제안합니다. 이론적으로 이 제약은 특정 조건에서 외삽 오류와 분포 이동을 제한할 뿐만 아니라 행동 정책 모델링 없이 지지 제약을 근사합니다. 또한 상당한 유연성을 유지하며, 각 데이터 포인트에 대해 이웃 반경을 조정하여 점별 보수성을 가능하게 합니다. 실제적으로 데이터 품질을 적응 기준으로 사용하고 적응형 이웃 제약을 설계합니다. 효율적인 양방향 최적화 프레임워크를 기반으로, 이 제약을 만족하는 타겟 행동으로 Q 학습을 수행하는 간단하지만 효과적인 알고리즘인 적응형 이웃 제약 Q 학습(ANQ)을 개발했습니다. 경험적으로 ANQ는 표준 오프라인 RL 벤치마크에서 최첨단 성능을 달성하고, 잡음이 있거나 제한된 데이터 시나리오에서 강력한 견고성을 보입니다.

시사점, 한계점

시사점:
오프라인 강화 학습에서 OOD 행동으로 인한 외삽 오류를 해결하기 위한 새로운 이웃 제약 제안.
이웃 제약은 이론적으로 외삽 오류와 분포 이동을 제한하며, 행동 정책 모델링 없이 지지 제약을 근사.
데이터 품질을 기반으로 하는 적응형 이웃 제약을 설계하여 점별 보수성을 확보.
ANQ 알고리즘을 개발하여 표준 오프라인 RL 벤치마크에서 최첨단 성능 달성 및 강력한 견고성 입증.
한계점:
논문에 제시된 구체적인 한계점은 명시적으로 언급되지 않음.
👍