Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

Created by
  • Haebom

作者

Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot

概要

本論文では、大規模な言語モデル(LLM)がロールプレイエージェントとして使用されている場合、特定のバージョンのキャラクター(漫画や映画の世界観のスーパーヒーローなど)を忠実かつ一貫して描写する能力を探ります。マーベルやDCなどのスーパーヒーローの世界観は豊富なテストベッドを提供し、同じキャラクターの複数の化身が異なる歴史、価値観、道徳的コードを持っています。これを研究するために、30人の象徴的な英雄と90個の特定の世界観バージョンを包括するキャラクターベースのロール劇のベンチマーク「Beyond One World」を紹介します。このベンチマークは、(i)主要な生活の段階をリアルに記憶するかどうかをテストする「Canon Events」と、(ii)モデルに倫理的に困難なシナリオを提示する「Moral Dilemmas」の2つの課題で構成されています.内部的熟考(「thinking」)と外部的行動(「acting」)を分離して、応答を正式な精度と推論忠実度で評価します。さらに、モデル信頼性の指標として使用される理由と行動の間のアラインメントを定量化する「Think-Act Matching」指標を提案します。推論指向および非推論指向モデルを対象とした実験を通じて、(1)事故の連鎖プロンプティングが弱いモデルではナラティブ一貫性を向上させるが、強いモデルでは正式な精度を減少させることができ、(2)キャラクター内でバージョン間一般化が依然として主な課題であり、(3)モデルが事故または行動の一つ得ました。 「Beyond One World」は、複数の宇宙の一貫性と推論アライメントの重要なギャップを明らかにし、ロールプレイングLLMのための困難な評価を提供します。

Takeaways、Limitations

Takeaways:
大規模言語モデルの役割劇能力評価のための新しいベンチマーク「Beyond One World」を提示。
キャラクターの様々なバージョンを一貫して描写する能力の重要性を強調。
事故と行動間のアライメントを測定する新しい指標「Think-Act Matching」提案
Chain-of-thoughtプロンプトの効果と限界分析
Limitations:
キャラクター間のバージョン内一般化が依然として難しい課題。
モデルが事故と行動の両方で優れた能力を示す場合が珍しい。
「Beyond One World」ベンチマークが特定の世界観とキャラクターに限定される。
👍