본 논문은 In-context Reinforcement Learning (ICRL) 분야의 발전을 저해하는 요소인, 단순 환경과 소규모 데이터셋에 국한된 기존 연구의 한계를 극복하기 위해 대규모 ICRL 데이터셋인 XLand-100B를 제시합니다. XLand-MiniGrid 환경을 기반으로 하는 XLand-100B는 약 30,000개의 서로 다른 과제에 대한 완전한 학습 이력을 포함하며, 1000억 개의 전이와 25억 개의 에피소드로 구성됩니다. 5만 GPU 시간을 투입하여 생성된 이 데이터셋은 대부분의 학계 연구실에서는 구축하기 어려운 규모입니다. 논문에서는 데이터셋과 함께 재현 및 확장을 위한 유틸리티를 제공하며, 일반적인 ICRL 기준 모델들의 성능을 벤치마킹하여 새로운 다양한 과제에 대한 일반화 능력이 부족함을 보여줍니다. 궁극적으로 이 연구는 ICRL 분야의 연구를 민주화하고 더 큰 규모로 확장하기 위한 견고한 기반을 제공하고자 합니다.