본 논문은 베이즈 규칙에 따라 최적의 의사결정 규칙이 주어지는 단순한 이진 분류 작업에서 인간과 인공지능(AI) 의사결정자의 성능을 비교합니다. El-Gamal과 Grether, 그리고 Holt와 Smith가 실시한 실험실 실험에서 수집된 인간 피험자들의 선택을 재분석하여, 베이즈 규칙이 인간 선택을 예측하는 최상의 단일 모델을 나타내지만, 피험자들은 이질적이며 상당수가 카네만과 트버스키가 설명한 판단 편향(대표성 휴리스틱, 보수주의)을 반영하는 비최적 선택을 한다는 것을 확인합니다. 최신 버전의 대규모 언어 모델(LLM)을 포함한 여러 버전의 ChatGPT에서 수집된 AI 피험자의 성능을 비교합니다. 이러한 범용 생성형 AI 챗봇은 좁은 의사결정 작업에서 잘 수행하도록 특별히 훈련되지 않았지만, 웹의 방대한 텍스트 데이터를 사용하여 "언어 예측기"로 훈련됩니다. ChatGPT 또한 비최적 의사결정으로 이어지는 편향의 영향을 받는다는 것을 보여줍니다. 그러나 초기 버전(ChatGPT 3.5)의 인간 이하 성능에서 최신 버전(ChatGPT 4o)의 초인적이고 거의 완벽한 베이즈 분류까지 ChatGPT의 성능이 급속도로 발전하고 있음을 보여줍니다.