Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Evaluating LLM-Generated Versus Human-Authored Responses in Role-Play Dialogues

Created by
  • Haebom

作者

Dongxu Lu, Johan Jeuring, Albert Gatt

概要

大規模言語モデル(LLM)の長文、知識ベースの役割劇会話評価の難しさを解決するために、本研究はマルチターン専門教育シミュレーションにおけるLLM生成応答と人間作成応答を比較しました。人的評価(N = 38)と自動化されたLLM-as-a-judge評価により、LLM生成応答の品質は、ターンが経つにつれて自然さ、コンテキスト維持、および全体的な品質の点で有意に低下することが確認されました。一方、人間作成応答はますます改善されている。人的評価結果は、Gemini 2.0 Flashがゼロショットペアの好みと確率的6ショットコンポーネント評価の両方で、人間評価者と強力な一致を示す自動化LLM-as-a-judge評価によって検証されました。この研究は、知識ベースのロールプレイング会話でLLMの劣化を明らかにするマルチターンベンチマークを提供し、トレーニングシミュレーションにおけるLLMの信頼性の高い統合のための実績のあるハイブリッド評価フレームワークを提示します。

Takeaways、Limitations

LLM生成応答の品質がマルチターン会話で時間の経過とともに低下する
人間作成応答は時間の経過とともに改善される
Gemini 2.0 Flashを利用した自動化LLM-as-a-judge評価は、人間の評価と一致する結果を示す
LLMベースのトレーニングシミュレーションを導入する際の品質低下の考慮が必要
研究は特定のLLM(Gemini 2.0 Flash)の評価結果を提示し、他のLLMの性能は異なる可能性があります
評価対象シミュレーションと評価基準の一般化の可能性に関するさらなる研究が必要
👍