오프라인 강화학습은 기존 데이터만으로 정책을 개선하는 것을 목표로 하지만, 분포 외(OOD) 행동에 대해 과도하게 낙관적인 가치 추정치를 산출하는 어려움을 겪는다. 일반적으로 정책 제약이나 보수적인 가치 규제 방법을 통해 이 문제를 완화하지만, 이러한 접근 방식은 과도한 제약이나 편향된 가치 추정치를 초래하여 성능 향상을 제한할 수 있다. 본 논문에서는 탐험과 제한 사이의 균형을 맞추기 위해, OOD 행동이 가져야 할 낙관성을 적절한 범위 내에서 유지하는 것을 목표로 하는 Imagination-Limited Q-learning (ILQ) 방법을 제안한다. 구체적으로, 역동 모델을 이용하여 OOD 행동 가치를 상상하고, 상상된 가치를 최대 행동 가치로 클리핑한다. 이러한 설계는 과도한 낙관성을 피하면서 OOD 행동에 대한 합리적인 평가를 최대한 유지한다. 이론적으로 표 형태 마르코프 의사결정 과정에서 제안된 ILQ의 수렴성을 증명한다. 특히, 추정된 값과 OOD 상태-행동의 최적 값 사이의 오차 경계가 분포 내 값과 같은 크기를 갖는다는 것을 보여줌으로써 가치 추정치의 편향이 효과적으로 완화됨을 나타낸다. 실험적으로, 제안된 방법은 D4RL 벤치마크의 광범위한 작업에서 최첨단 성능을 달성한다.