본 논문은 대규모 언어 모델(LLM)이 내부 세계 모델을 구성하고 조작하는지, 아니면 출력 계층 토큰 확률로 표현된 통계적 연관성에만 의존하는지를 조사한다. 연구진은 TikZ로 렌더링된 자극을 사용하여 도르래 시스템 문제에 대한 LLM을 테스트하기 위해 인간 정신 모델 연구의 인지 과학 방법론을 적용했다. 연구 1에서는 LLM이 기계적 이점(MA)을 추정할 수 있는지 여부를 조사했다. 최첨단 모델은 우연보다 약간 높지만 유의미하게 수행되었으며, 그 추정치는 실제 MA와 유의미하게 상관관계가 있었다. 도르래 수와 모델 추정치 사이의 유의미한 상관관계는 모델이 정확한 값을 도출하기 위해 도르래 시스템을 시뮬레이션하지 않고도 도르래 계산 휴리스틱을 사용했음을 시사한다. 연구 2에서는 MA 추정에 중요한 전역적 특징을 LLM이 표현하는지 여부를 조사하여 이를 테스트했다. 모델은 기능적으로 연결된 도르래 시스템을 구성 요소가 무작위로 배치된 가짜 시스템과 평가했다. 명시적인 단서 없이 모델은 기능적 시스템이 F1=0.8로 더 큰 MA를 가지고 있다고 식별하여 LLM이 혼란스러운 시스템과 기능적 시스템을 구별할 수 있을 만큼 시스템을 잘 표현할 수 있음을 시사한다. 연구 3에서는 LLM에 기능적 시스템을 연결은 되었지만 무게에 힘을 전달하지 않는 일치하는 시스템과 비교하도록 요청하여 이를 기반으로 했다. LLM은 F1=0.46으로 기능적 시스템을 식별하여 무작위 추측을 시사한다. 일반화될 수 있는 한, 이러한 결과는 LLM이 도르래 수와 MA 사이의 통계적 연관성을 활용하기에 충분한 내부 세계 모델을 조작하고(연구 1), 시스템 구성 요소의 공간 관계를 대략적으로 표현할 수 있음(연구 2)을 시사한다. 그러나 그들은 미묘한 구조적 연결성에 대해 추론하는 능력이 부족할 수 있다(연구 3). 결론적으로 인공 지능 시스템의 세계 모델링 능력을 평가하기 위한 인지 과학적 방법의 유용성을 옹호한다.