인간의 직관적인 물리 이해 능력은 기계가 따라갈 수 없는 수준이다. 이 격차를 해소하기 위해 뇌 기반 계산 원리를 향한 근본적인 전환을 주장한다. 본 논문은 객체 속성, 관계, 타임라인에 대한 통일된 신경 표현을 확립하는 Spatiotemporal Relational Neural Network (SRNN)을 소개한다. SRNN은 "함께 불타면, 함께 연결된다"는 헤비안 메커니즘에 의해 제어되는 전용 What 및 How 경로를 통해 계산을 수행한다. 이 통일된 표현은 시각적 장면의 구조화된 언어적 설명을 생성하는 데 직접 사용되어, 인식과 언어를 공유된 신경 기질 내에서 연결한다. 또한, SRNN은 널리 사용되는 "사전 훈련 후 미세 조정" 패러다임과 달리 "사전 정의 후 미세 조정" 접근 방식을 채택한다. CLEVRER 벤치마크에서 SRNN은 경쟁력 있는 성능을 달성한다. 분석 결과, 벤치마크 편향을 밝혀내고, 보다 전체적인 평가 경로를 제시하며, SRNN의 정확한 오류 진단을 위한 화이트 박스 유틸리티를 입증한다. 본 연구는 직관적인 물리 이해를 위한 생물학적 지능을 엔지니어링된 시스템으로 변환하는 가능성을 확인한다.