본 논문은 오프라인 강화학습(Offline RL)에서 Q-값 과대추정 문제로 인해 발생하는 과도한 보수적인 정책의 문제점을 해결하기 위해, Adaptive Conservative Level in Q-Learning (ACL-QL) 프레임워크를 제안합니다. ACL-QL은 각 상태-행동 쌍에 대해 보수적인 수준을 적응적으로 제어하여, 좋은 전이에는 Q-값을 더 높이고 나쁜 전이에는 Q-값을 덜 높임으로써, Q-값을 적절한 범위 내에서 제한합니다. 이를 위해 두 개의 학습 가능한 가중치 함수를 사용하여 각 전이의 보수적인 수준을 제어하고, 단조성 손실 및 대리 손실을 사용하여 가중치 함수, Q-함수 및 정책 네트워크를 번갈아 학습시키는 새로운 알고리즘을 제시합니다. D4RL 벤치마크를 사용한 실험 결과, 기존 오프라인 DRL 기준 모델들보다 우수한 성능을 보임을 확인했습니다.