본 논문은 대규모 언어 모델(LLM)이 훌륭한 예측 정확도를 보이지만, 진정한 이해를 갖추고 있는지 평가하는 새로운 방법론을 제시한다. 인간 전문가와 유사한 LLM의 이해는 여러 사례와 다양한 도메인에서 일관되고 근거 있는 결정을 내리는 능력, 즉 관련 결정 요인에 의존하는 것으로 정의한다. 본 연구에서는 구조화된 결정 시뮬레이션(STaDS)을 도입하여, LLM을 전문가와 같이 구조화된 결정 "시험"을 치르는 것처럼 평가한다. STaDS는 질문 및 지시 이해, 지식 기반 예측, 관련 결정 요인 의존도를 통해 이해를 종합적으로 평가한다. 9개의 최첨단 LLM을 15개의 다양한 결정 설정에서 분석한 결과, 대부분의 모델이 다양한 도메인에서 일관된 정확도를 달성하는 데 어려움을 겪는다는 것을 발견했다. 또한 모델이 정확하지만 전체적으로 신뢰할 수 없고, 예측을 이끄는 요인과 설명 간에 불일치가 자주 발생함을 확인했다.