Sign In

Can LLMs Help Improve Analogical Reasoning For Strategic Decisions? Experimental Evidence from Humans and GPT-4

Created by
  • Haebom
Category
Empty

저자

Phanish Puranam, Prothit Sen, Maciej Workiewicz

개요

본 연구는 전략적 의사결정 상황에서 대규모 언어 모델(LLM), 특히 GPT-4가 유추 추론 능력에서 인간의 능력에 필적하는지 조사한다. 소스-타겟 매칭을 포함하는 새로운 실험 설계를 사용하여, GPT4는 모든 타당한 유추를 검색하여 높은 재현율을 달성하지만, 피상적인 유사성에 기반하여 잘못된 유추를 자주 적용하여 낮은 정확도를 보이는 것을 발견했다. 반면, 인간 참가자는 적은 유추를 선택하지만 더 강력한 인과적 정렬을 통해 높은 정확도를, 낮은 재현율을 보였다. 이러한 결과는 유추 추론의 평가 단계인 매칭을 단순 검색을 넘어 정확한 인과적 매핑을 필요로 하는 별개의 단계로 식별함으로써 이론을 발전시킨다. 현재 LLM은 후보 유추를 생성하는 데 능숙하지만, 인간은 도메인 간의 심층 구조적 유사성을 인식하는 데 비교적 우위를 점하고 있다. 오류 분석 결과, AI 오류는 표면 수준 매칭에서 발생하는 반면, 인간 오류는 인과 구조의 오해에서 비롯된다는 것을 보여준다. 종합적으로 볼 때, 이러한 결과는 LLM이 광범위한 유추 생성기 역할을 하고 인간이 가장 문맥적으로 적절한 유추를 전략적 문제에 적용하는 중요한 평가자 역할을 하는 AI 지원 조직 의사결정에서 생산적인 노동 분업을 시사한다.

시사점, 한계점

시사점:
LLM(GPT-4)은 유추 후보 생성에 능숙하지만, 인간은 심층적 유사성 인식 및 인과적 매핑에 강점을 지닌다.
AI 지원 의사결정에서 LLM과 인간의 생산적인 분업 가능성 제시 (LLM: 유추 생성, 인간: 유추 평가 및 적용)
유추 추론의 평가 단계인 '매칭'의 중요성 강조: 단순 검색을 넘어 정확한 인과적 매핑 필요
한계점:
연구 설계의 특수성으로 인한 일반화의 어려움 (특정 유형의 유추 추론 과제 및 전략적 의사결정 상황에 한정)
다양한 LLM 및 인간 참가자에 대한 추가 연구 필요
실제 의사결정 상황에서의 LLM과 인간의 상호작용 및 협업에 대한 추가적인 연구 필요
👍