본 연구는 오프라인 강화 학습(RL) 알고리즘의 확장성을 연구한다. 충분한 데이터, 계산 능력, 모델 용량이 주어졌을 때, 진정으로 확장 가능한 오프라인 RL 알고리즘은 복잡성에 관계없이 어떤 문제든 해결할 수 있어야 한다. 본 논문은 기존 오프라인 RL 알고리즘이 데이터셋을 최대 1000배까지 늘린 다양한 도전적인 문제에 대해 이러한 약속을 얼마나 잘 지키는지 조사한다. 많은 기존 오프라인 RL 알고리즘이 데이터 크기 증가에도 불구하고 확장성이 부족하고 최대 성능에 훨씬 못 미치는 결과를 보임을 관찰했다. 특히, 수평선(horizon)이 오프라인 RL의 확장성을 저해하는 주요 원인임을 확인하고, 이를 줄이는 기술을 통해 확장성을 크게 향상시킬 수 있음을 보였다. 또한, 수평선을 효과적으로 줄이는 SHARSA라는 최소한의 확장 가능한 방법을 제안하고, 이를 통해 오프라인 RL의 확장성을 달성할 수 있음을 입증했다.