오프라인 강화 학습(RL)은 분포 밖(OOD) 행동으로 인한 외삽 오류에 취약합니다. 이러한 문제를 해결하기 위해 오프라인 RL 알고리즘은 일반적으로 행동 선택에 제약을 가하며, 이를 밀도, 지지, 및 표본 제약으로 분류할 수 있습니다. 그러나 각 범주에는 고유한 한계가 있습니다. 밀도 및 표본 제약은 많은 시나리오에서 과도하게 보수적인 경향이 있는 반면, 가장 덜 제한적인 지지 제약은 행동 정책을 정확하게 모델링하는 데 어려움을 겪습니다. 이러한 한계를 극복하기 위해 본 논문에서는 벨만 타겟에서 데이터셋 행동의 이웃의 합집합으로 행동 선택을 제한하는 새로운 이웃 제약을 제안합니다. 이론적으로 이 제약은 특정 조건에서 외삽 오류와 분포 이동을 제한할 뿐만 아니라 행동 정책 모델링 없이 지지 제약을 근사합니다. 또한 상당한 유연성을 유지하며, 각 데이터 포인트에 대해 이웃 반경을 조정하여 점별 보수성을 가능하게 합니다. 실제적으로 데이터 품질을 적응 기준으로 사용하고 적응형 이웃 제약을 설계합니다. 효율적인 양방향 최적화 프레임워크를 기반으로, 이 제약을 만족하는 타겟 행동으로 Q 학습을 수행하는 간단하지만 효과적인 알고리즘인 적응형 이웃 제약 Q 학습(ANQ)을 개발했습니다. 경험적으로 ANQ는 표준 오프라인 RL 벤치마크에서 최첨단 성능을 달성하고, 잡음이 있거나 제한된 데이터 시나리오에서 강력한 견고성을 보입니다.