본 논문은 대규모 언어 모델(LLM)이 명시적 추론에 능숙하지만 암묵적인 계산 전략은 아직 탐구되지 않았다는 점에 주목하여, LLM이 인간과 유사하게 최적의 베이지안 전략을 사용하여 멀티모달 정보를 통합하는지 연구한다. 심리물리학적 패러다임을 차용하여, LLM의 계산 원리를 체계적인 행동 연구를 통해 추론하고자 한다. 이를 위해, 고전적인 심리물리학에서 영감을 얻은 4가지 크기 추정 과제(길이, 위치, 거리, 시간)를 포함하는 BayesBench 벤치마크를 개발하고, 다양한 LLM의 성능을 인간의 판단과 비교하여 보정했다. 노이즈, 컨텍스트, 명령어 프롬프트의 제어를 통해 멀티모달 큐 조합에서의 성능, 행동, 효율성을 측정하고, 정확도가 포화될 때에도 베이즈 일관적인 행동 변화를 감지하는 베이지안 일관성 점수를 도입했다. 연구 결과, LLM이 베이즈 일관적인 방식으로 적응하는 경우가 많지만, 정확도가 견고함을 보장하지는 않는다는 것을 확인했다. 특히, GPT-5 Mini는 텍스트 정확도는 완벽하지만 시각적 큐를 효율적으로 통합하지 못했다. 이는 능력과 전략 간의 중요한 분리를 보여주며, 정확성 중심의 벤치마크가 취약한 불확실성 처리를 놓칠 수 있음을 시사한다.