본 논문은 Vision-Language Model (VLM)의 물리적 추론 능력 향상을 위한 새로운 모듈식 프레임워크인 Physics Context Builders (PCBs)를 제시합니다. VLMs는 동적인 환경에서 물체의 행동을 해석하는 데 어려움을 겪는데, 이는 학습된 지식을 물리적 행동 예측으로 전환하는 데 어려움 때문입니다. 지속적인 미세 조정은 이 문제를 완화할 수 있지만 비용이 많이 들고 실용적이지 않습니다. 따라서 PCBs는 특화된 VLM을 미세 조정하여 상세한 물리적 장면 설명을 생성하고, 이를 더 큰 VLM에 물리적 맥락으로 제공하여 추론 능력을 향상시키는 방식으로 설계되었습니다. CLEVRER와 Falling Tower 데이터셋을 사용한 실험 결과, PCBs는 복잡한 물리적 추론 작업에서 평균 정확도를 최대 13.8% 향상시키는 등 상당한 성능 향상을 보였으며, 시뮬레이션 데이터에서 실제 장면으로의 강력한 Sim2Real 전이를 보여주었습니다. 이는 시뮬레이션 기반 모듈을 통해 시각적 인식을 향상시키는 것이 VLM의 물리적 추론 능력 향상에 실용적인 접근 방식임을 보여줍니다.