Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

First Steps Towards Overhearing LLM Agents: A Case Study With Dungeons & Dragons Gameplay

Created by
  • Haebom

作者

Andrew Zhu、Evan Osgood、Chris Callison-Burch

概要

本論文は、既存の対話型LLMエージェントとは異なる新しいパラダイムである「覗き込みエージェント」を提示します。めちゃくちゃエージェントは会話に直接参加するのではなく、人々間の会話を「聞く」ことがユーザーを支援するためのバックグラウンドタスクを実行したり提案を提供したりします。本研究では、ダンジョン&ドラゴンゲームプレイという文脈で、大規模なマルチモーダルオーディオ言語モデルを覗くエージェントとして使用してダンジョンマスターをサポートする詳細な研究を行います。人間の評価を通して、これらのエージェントの有用性を検討し、いくつかの大規模なオーディオ言語モデルが暗黙のオーディオ手がかりを使用して覗き込みエージェントタスクを実行する能力があることを発見しました。最後に、ピックアップエージェントのパラダイムに関するさらなる研究を支援するために、Pythonライブラリとプロジェクトコードを公開します( https://github.com/zhudotexe/overhearing_agents )。

Takeaways、Limitations

Takeaways:
インタラクティブなLLMエージェントの新しいパラダイムである「覗き込みエージェント」を提示し、その可能性を探索した。
ダンジョン&ドラゴンゲームという特定の状況で、大規模なマルチモーダルオーディオ - 言語モデルの覗き込みエージェントの役割を果たす可能性を示しました。
いくつかの大規模モデルでは、暗黙のオーディオ手がかりを使用して作業を実行する能力が発見されました。
関連するPythonライブラリとコードを公開して、後続の研究を支援します。
Limitations:
ダンジョン&ドラゴンゲームという特定の状況に限定された研究なので、他の状況での一般化の可能性はさらなる研究が必要です。
使用された大規模モデルの種類と性能に関する詳細情報が不足しています。
めちゃくちゃエージェントのプライバシーと倫理的な問題についての議論が不足しています。
👍