本稿では、大規模言語モデル(LLM)の事前対話能力を評価するための統合フレームワークであるProactiveEvalを提案します。既存の研究は、特定のドメインまたは課題を中心としたシナリオに集中し、モデルの事前会話能力の包括的な探求が制限されていることを改善するために、目標計画と会話の誘導という2つの側面に事前会話を分解し、さまざまなドメインにわたって評価指標を設定します。また、さまざまで困難な評価データを自動的に生成できるように設計されています。 6つの異なるドメインにわたって328の評価環境を開発し、22のLLMを実験して、DeepSeek-R1とClaude-3.7-Sonnetがそれぞれ目標計画と対話誘導課題で優れたパフォーマンスを示した。最後に,推論能力が事前行動に及ぼす影響を調査し,今後のモデル開発に関するTakeawaysについて議論した。