본 논문은 오프라인 데이터셋을 이용한 자기 지도 학습으로 훈련된 대규모 모델이 텍스트 및 이미지 영역에서 놀라운 성능을 보였지만, 순차적 의사결정 문제에서 행동하는 에이전트에 대해 동일한 일반화를 달성하는 것은 여전히 해결되지 않은 과제임을 지적합니다. 이를 위해 본 논문은 수천만 개의 2D 물리 기반 작업을 절차적으로 생성하고 이를 사용하여 물리적 제어를 위한 일반 강화 학습(RL) 에이전트를 훈련하는 방법을 제시합니다. 이를 위해, 로봇 보행 및 파지에서 비디오 게임 및 고전적인 RL 환경에 이르기까지 다양한 작업을 통합된 프레임워크 내에서 나타낼 수 있는 개방형 물리 기반 RL 환경 공간인 Kinetix를 소개합니다. Kinetix는 훈련 중 수십억 개의 환경 단계를 저렴하게 시뮬레이션할 수 있도록 하는 새로운 하드웨어 가속 물리 엔진인 Jax2D를 사용합니다. 훈련된 에이전트는 2D 공간에서 강력한 물리적 추론 능력을 보여주며, 본 적 없는 인간이 설계한 환경을 제로샷으로 해결할 수 있습니다. 또한, 관심 있는 작업에 대해 이 일반 에이전트를 미세 조정하면 tabula rasa에서 RL 에이전트를 훈련하는 것보다 훨씬 더 강력한 성능을 보여줍니다. 여기에는 표준 RL 훈련이 완전히 실패하는 일부 환경을 해결하는 것도 포함됩니다. 본 연구는 대규모 혼합 품질 사전 훈련이 온라인 RL에 대해 실행 가능함을 보여주는 것이며, Kinetix가 이를 더 자세히 조사하는 데 유용한 프레임워크 역할을 할 것이라고 기대합니다.