SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors
Created by
Haebom
作者
Tiancheng Hu, Joachim Baumann, Lorenzo Lupo, Nigel Collier, Dirk Hovy, Paul R ottger
概要
本論文では、LLM(Large Language Model)が人間の行動をシミュレートする能力を評価するための大規模な標準化ベンチマークであるSimBenchを紹介します。 SimBenchは、20の異なるデータセットを統合し、道徳的意思決定から経済的選択まで、幅広いタスクを網羅しています。研究結果によると、現在のLLMのシミュレーション能力は限られていますが(40.80/100点)、モデルサイズによって対数線形的に増加します。さらに、推論時間のコンピューティングの増加はパフォーマンスの向上に寄与せず、インスツルメントチューニングは低エントロピー(合意)の質問ではパフォーマンスを向上させますが、高エントロピー(多様性)の質問では低下するアライメントシミュレーショントレードオフが存在することを明らかにしました。特に、特定の人口統計グループのシミュレーションに苦労し、知識集約的な推論能力と高い相関関係を示した。