Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Social preferences with unstable interactive reasoning: Large language models in economic trust games

Created by
  • Haebom

저자

Ou Jiamin, Eikmans Emile, Buskens Vincent, Pankowska Paulina, Shan Yuli

개요

본 연구는 대규모 언어 모델(LLM)의 사회적 상호작용 이해 능력을 경제적 신뢰 게임을 통해 평가했습니다. ChatGPT-4, Claude, Bard 세 가지 LLM을 이용하여, 참여자들이 이기심과 신뢰, 상호 호혜성 사이에서 균형을 맞추는 상황을 설정했습니다. 그 결과, LLM들은 특정 페르소나를 부여받지 않더라도 순수한 이기심에서 벗어나 신뢰와 상호 호혜성을 보이는 것으로 나타났습니다. 단순 일회성 상호작용에서는 인간 참여자와 유사하게 신뢰를 보였으나, 신뢰 보답이나 다회차 상호작용에서는 인간과의 차이가 더 크게 나타났습니다. LLM의 반응은 페르소나(이타적, 이기적, 중립적)에 따라 크게 달라졌으며, 모델이나 게임 유형의 차이보다 페르소나의 영향이 더 컸습니다. 특히 ChatGPT-4는 이타적 또는 중립적 페르소나에서 인간, Claude, Bard보다 높은 수준의 신뢰와 상호 호혜성을 보였습니다. 반면 이기적 페르소나에서는 모든 LLM이 인간보다 낮은 수준을 보였습니다. 상대방의 행동이나 게임 메커니즘 변화에 대한 반응(상호작용적 추론)은 일관성이 부족했지만, ChatGPT-4의 경우 이타적 또는 이기적 페르소나에서 개선된 모습을 보였습니다.

시사점, 한계점

시사점:
LLM이 페르소나 설정 없이도 신뢰와 상호 호혜성을 보이는 것을 확인했습니다.
LLM의 사회적 행동은 페르소나 설정에 크게 영향을 받습니다.
ChatGPT-4는 특히 이타적 페르소나에서 인간보다 높은 수준의 신뢰와 상호 호혜성을 보였습니다.
LLM의 상호작용적 추론 능력은 아직 개선의 여지가 있습니다.
한계점:
LLM의 상호작용적 추론 능력이 불안정하고 재현성이 낮습니다.
다양한 유형의 게임이나 상황에 대한 추가 연구가 필요합니다.
LLM의 신뢰 및 상호 호혜성 수준이 인간과 일치하지 않는 경우가 존재합니다.
👍