본 논문은 에이전트가 상호작용을 통해 인간과 유사한 추론 능력을 습득하고 경험을 통해 지속적으로 개선될 수 있는지를 연구한다. 이를 위해 다양한 물리적, 인과적 메커니즘을 가진 1,000개 이상의 게임으로 구성된 Game-to-Unseen (G2U) 환경을 구축하고, 생존, 호기심, 효용의 세 가지 인간 수준에서 평가한다. 분석 결과, 시각 언어 모델(VLM/VLA)은 추론 능력이 있지만 상호작용 환경에서 예측 능력이 부족하고, 월드 모델은 물리적, 인과적 분석보다는 시각적 패턴을 모방하는 경향을 보였다. 이에 저자들은 월드 모델 롤아웃을 사용하여 VLM의 정책을 강화하는 IPR (Interactive Physical Reasoner)을 제안하고, 물리 기반의 액션 코드를 사용하여 예측 및 추론을 위한 공유 액션 공간을 제공하는 PhysCode를 도입했다. IPR은 1,000개 이상의 게임으로 사전 훈련되었으며, 세 가지 수준에서 안정적인 성능을 보였고, GPT-5와 유사하거나 능가하는 결과를 얻었다. 또한, 더 많은 훈련 게임과 상호작용 단계에서 성능이 향상되었으며, 보이지 않는 게임에도 제로샷 전이가 가능함을 확인했다.