大規模言語モデル(LLM)の長文、知識ベースの役割劇会話評価の難しさを解決するために、本研究はマルチターン専門教育シミュレーションにおけるLLM生成応答と人間作成応答を比較しました。人的評価(N = 38)と自動化されたLLM-as-a-judge評価により、LLM生成応答の品質は、ターンが経つにつれて自然さ、コンテキスト維持、および全体的な品質の点で有意に低下することが確認されました。一方、人間作成応答はますます改善されている。人的評価結果は、Gemini 2.0 Flashがゼロショットペアの好みと確率的6ショットコンポーネント評価の両方で、人間評価者と強力な一致を示す自動化LLM-as-a-judge評価によって検証されました。この研究は、知識ベースのロールプレイング会話でLLMの劣化を明らかにするマルチターンベンチマークを提供し、トレーニングシミュレーションにおけるLLMの信頼性の高い統合のための実績のあるハイブリッド評価フレームワークを提示します。