Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Who is More Bayesian: Humans or ChatGPT?

Created by
  • Haebom

저자

Tianshi Mu, Pranjal Rawat, John Rust, Chengjun Zhang, Qixuan Zhong

개요

본 논문은 베이즈 규칙에 따라 최적의 의사결정 규칙이 주어지는 단순한 이진 분류 작업에서 인간과 인공지능(AI) 의사결정자의 성능을 비교합니다. El-Gamal과 Grether, 그리고 Holt와 Smith가 실시한 실험실 실험에서 수집된 인간 피험자들의 선택을 재분석하여, 베이즈 규칙이 인간 선택을 예측하는 최상의 단일 모델을 나타내지만, 피험자들은 이질적이며 상당수가 카네만과 트버스키가 설명한 판단 편향(대표성 휴리스틱, 보수주의)을 반영하는 비최적 선택을 한다는 것을 확인합니다. 최신 버전의 대규모 언어 모델(LLM)을 포함한 여러 버전의 ChatGPT에서 수집된 AI 피험자의 성능을 비교합니다. 이러한 범용 생성형 AI 챗봇은 좁은 의사결정 작업에서 잘 수행하도록 특별히 훈련되지 않았지만, 웹의 방대한 텍스트 데이터를 사용하여 "언어 예측기"로 훈련됩니다. ChatGPT 또한 비최적 의사결정으로 이어지는 편향의 영향을 받는다는 것을 보여줍니다. 그러나 초기 버전(ChatGPT 3.5)의 인간 이하 성능에서 최신 버전(ChatGPT 4o)의 초인적이고 거의 완벽한 베이즈 분류까지 ChatGPT의 성능이 급속도로 발전하고 있음을 보여줍니다.

시사점, 한계점

시사점:
인간의 의사결정은 베이즈 규칙을 따르지만, 개인차와 판단 편향의 영향을 받는다.
LLM 기반 AI의 의사결정 성능이 급속도로 발전하고 있으며, 최신 모델은 인간을 능가하는 성능을 보인다.
LLM도 판단 편향의 영향을 받을 수 있다.
한계점:
연구는 단순한 이진 분류 작업에 국한되어 있으며, 복잡한 의사결정 과제로 일반화하는 데에는 한계가 있다.
분석에 사용된 LLM의 특정 버전과 데이터셋에 의존적인 결과일 수 있다.
LLM의 성능 향상이 지속될지, 그리고 모든 유형의 의사결정 작업에서 일반화될지는 추가 연구가 필요하다.
👍