Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents

Created by
  • Haebom

作者

Tianjian Liu, Fanqi Wan, Jiajian Guo, Xiaojun Quan

概要

本稿では、大規模言語モデル(LLM)の事前対話能力を評価するための統合フレームワークであるProactiveEvalを提案します。既存の研究は、特定のドメインまたは課題を中心としたシナリオに集中し、モデルの事前会話能力の包括的な探求が制限されていることを改善するために、目標計画と会話の誘導という2つの側面に事前会話を分解し、さまざまなドメインにわたって評価指標を設定します。また、さまざまで困難な評価データを自動的に生成できるように設計されています。 6つの異なるドメインにわたって328の評価環境を開発し、22のLLMを実験して、DeepSeek-R1とClaude-3.7-Sonnetがそれぞれ目標計画と対話誘導課題で優れたパフォーマンスを示した。最後に,推論能力が事前行動に及ぼす影響を調査し,今後のモデル開発に関するTakeawaysについて議論した。

Takeaways、Limitations

Takeaways:
LLMの事前対話能力評価のための統合的かつ体系的なフレームワーク(ProactiveEval)の提示
さまざまなドメインとLLMの広範な実験により、優れた性能を示すモデル(DeepSeek-R1、Claude-3.7-Sonnet)を発見
推論能力と事前対話能力との関係の解明と今後のモデル開発方向の提示
Limitations:
ProactiveEvalフレームワークの一般化の可能性に関するさらなる研究が必要
評価データの多様性とバランスの追加レビューが必要
特定のドメインに偏った結果を解釈するための注意が必要
事前会話能力の定義と測定に関するさらなる議論の必要性
👍