SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

Created by

Haebom

저자

Tiancheng Hu, Joachim Baumann, Lorenzo Lupo, Nigel Collier, Dirk Hovy, Paul Rottger

💡 개요

본 논문은 대규모 언어 모델(LLM)이 인간 행동을 얼마나 잘 시뮬레이션하는지 평가하기 위한 표준화된 벤치마크인 SimBench를 제안합니다. SimBench는 20개의 다양한 데이터셋을 통합하여 도덕적 의사결정부터 경제적 선택까지 폭넓은 과제를 다루며, LLM 시뮬레이션의 충실도를 체계적으로 평가할 수 있는 기반을 제공합니다. 현재 최고의 LLM은 인간 행동을 어느 정도 시뮬레이션할 수 있지만(40.80/100점), 여전히 개선의 여지가 많으며, 특히 특정 인구 집단을 시뮬레이션하는 데 어려움을 겪습니다.

🔑 시사점 및 한계

•

SimBench는 LLM의 인간 행동 시뮬레이션 능력을 객관적이고 재현 가능하게 평가할 수 있는 최초의 대규모 표준 벤치마크를 제공합니다.

•

LLM의 시뮬레이션 능력은 모델 크기에 따라 로그 선형적으로 증가하며, 지식 기반 추론 능력과 높은 상관관계를 보입니다.

•

현재 LLM은 지침 튜닝 시 저엔트로피 질문에는 강점을 보이나 고엔트로피 질문에서는 성능이 저하되는 상충 관계를 보이며, 특정 인구 집단 시뮬레이션에 대한 개선이 필요합니다.

•

본 연구는 LLM 시뮬레이션 능력의 발전을 측정 가능하게 만들어 더 충실한 LLM 시뮬레이터 개발을 가속화하는 것을 목표로 합니다.

PDF 보기

Made with Slashpage