本論文では、大規模な言語モデル(LLM)がロールプレイエージェントとして使用されている場合、特定のバージョンのキャラクター(漫画や映画の世界観のスーパーヒーローなど)を忠実かつ一貫して描写する能力を探ります。マーベルやDCなどのスーパーヒーローの世界観は豊富なテストベッドを提供し、同じキャラクターの複数の化身が異なる歴史、価値観、道徳的コードを持っています。これを研究するために、30人の象徴的な英雄と90個の特定の世界観バージョンを包括するキャラクターベースのロール劇のベンチマーク「Beyond One World」を紹介します。このベンチマークは、(i)主要な生活の段階をリアルに記憶するかどうかをテストする「Canon Events」と、(ii)モデルに倫理的に困難なシナリオを提示する「Moral Dilemmas」の2つの課題で構成されています.内部的熟考(「thinking」)と外部的行動(「acting」)を分離して、応答を正式な精度と推論忠実度で評価します。さらに、モデル信頼性の指標として使用される理由と行動の間のアラインメントを定量化する「Think-Act Matching」指標を提案します。推論指向および非推論指向モデルを対象とした実験を通じて、(1)事故の連鎖プロンプティングが弱いモデルではナラティブ一貫性を向上させるが、強いモデルでは正式な精度を減少させることができ、(2)キャラクター内でバージョン間一般化が依然として主な課題であり、(3)モデルが事故または行動の一つ得ました。 「Beyond One World」は、複数の宇宙の一貫性と推論アライメントの重要なギャップを明らかにし、ロールプレイングLLMのための困難な評価を提供します。
Takeaways、Limitations
•
Takeaways:
◦
大規模言語モデルの役割劇能力評価のための新しいベンチマーク「Beyond One World」を提示。